ChatGPT ganha voz e visão para conversas

Em 25 de setembro de 2023, a OpenAI anunciou que o ChatGPT passaria a aceitar imagens e conversas por voz, além de responder falando. Na prática, isso transforma o chatbot em um assistente multimodal, capaz de entender o que aparece em uma foto e sustentar um diálogo em tempo real.

O que muda com voz e imagens

Até então, o ChatGPT dependia basicamente de texto. Com entrada de imagens e conversa por voz, o modelo passa a receber contexto do mundo real, como um gráfico no trabalho, uma etiqueta de produto, uma tela de erro ou uma foto da sua cozinha, e responder de um jeito mais natural, sem exigir que a pessoa descreva tudo com precisão.

Uma forma fácil de entender a mudança é o modelo “Voz, Visão e Velocidade”. Voz reduz atrito, visão reduz ambiguidade, e a combinação acelera decisões do cotidiano, porque o usuário gasta menos tempo explicando e mais tempo refinando a resposta.

Mercado em uma frase: é o salto do “chat que escreve bem” para um assistente que acompanha a situação, parecido com o que a gente espera de um atendente humano que olha, escuta e responde na hora.

Casos de uso que valem o teste

O ganho aparece quando a pergunta depende de contexto visual ou quando falar é mais rápido do que digitar.

  • Turismo: apontar a câmera para um ponto turístico e puxar uma conversa sobre história, detalhes arquitetônicos e curiosidades locais.
  • Cozinha: fotografar geladeira e despensa para sugerir combinações possíveis, e depois pedir uma receita em etapas, ajustando para tempo e restrições alimentares.
  • Estudo: tirar foto de um exercício de matemática e pedir dicas, pistas e verificação de raciocínio em vez de só “a resposta final”.
  • Trabalho: enviar um gráfico ou dashboard e pedir leitura do que está subindo, caindo, o que pode estar distorcendo a análise e quais perguntas investigar.

Exemplo prático: no mercado, basta fotografar a lista de ingredientes que já estão em casa e perguntar quais itens faltam para três jantares rápidos. Depois, com uma foto do rótulo de um produto, dá para checar alergênicos e adaptar a receita.

Como ativar a conversa por voz e enviar imagens

Segundo a OpenAI, o modo de voz foi pensado para uso no app do ChatGPT, especialmente em iOS e Android, com ativação opcional nas configurações. A interação acontece como uma conversa de ida e volta, com o ChatGPT falando a resposta.

Para começar, o fluxo descrito no anúncio é: abrir as configurações do app, procurar a área de novos recursos, ativar conversas por voz e então tocar no ícone de fones na tela inicial para escolher uma voz.

Para imagens, a lógica é parecida: tocar no botão de foto para capturar ou escolher uma imagem e, se necessário, guiar a atenção para um trecho específico usando a ferramenta de marcação no app. A OpenAI descreveu que a compreensão de imagens era suportada por versões multimodais do GPT-3.5 e do GPT-4, e que a transcrição de fala usava o Whisper.

Para acompanhar mudanças de interface e disponibilidade ao longo do tempo, vale consultar as notas oficiais do produto no ChatGPT Release Notes.

Limitações e segurança com voz e visão

Voz e visão aumentam utilidade, mas também ampliam risco. Voz sintética pode facilitar tentativas de golpe por imitação, e análise de imagens pode induzir erro quando a foto é ambígua ou quando a pergunta envolve algo sensível.

Regra de decisão: se o resultado puder gerar dano real, como saúde, finanças, segurança física, questões legais, ou identificação de pessoas, use o ChatGPT para levantar hipóteses e perguntas, e valide com fonte confiável fora do modelo.

No anúncio, a OpenAI também alertou que a transcrição era mais confiável em inglês e recomendou cautela para usuários que não falam inglês ao usar o recurso para transcrever fala.

Leituras de referência

  1. Anúncio oficial de voz e imagens no ChatGPT
  2. DALL·E 3
  3. Confidence-Building Measures for Artificial Intelligence

Publicado

em

por