
Em 24 de setembro de 2024, a OpenAI informou que começou a liberar o Advanced Voice Mode no app do ChatGPT para mais assinantes, com novas vozes e uma interface redesenhada. A proposta é deixar a conversa por áudio mais natural, com transições mais fluidas, melhor compreensão de sotaques e recursos de personalização que já existiam no texto.
O que muda com o Advanced Voice Mode
O Advanced Voice Mode, também chamado de AVM, é a camada de conversa por áudio que tenta aproximar a experiência de uma ligação, em vez de um ditado com respostas lidas. No anúncio, a OpenAI destacou uma fala mais natural e um ritmo de conversa mais contínuo, além de melhorias na interpretação de diferentes sotaques.
A interface também mudou. Em vez dos pontos pretos animados mostrados em demonstrações anteriores, o modo passa a aparecer como uma esfera azul animada, um visual pensado para deixar claro que a conversa está em “tempo real”. Quando a função chega para a conta, o app costuma sinalizar com um aviso perto do ícone de voz.
Outra parte importante do pacote é a atualização de vozes disponíveis. Naquela leva, cinco novas vozes foram adicionadas, Arbor, Maple, Sol, Spruce e Vale, elevando o total para nove, ao lado de Breeze, Juniper, Cove e Ember.
Quem recebe primeiro e o que ainda fica de fora
Segundo a OpenAI, o início da liberação foi direcionado aos planos Plus e Teams no app, com expansão para Enterprise e Edu na semana seguinte. O anúncio original foi publicado pela empresa no X, e continua acessível em um post do perfil oficial.
Na comunicação da época, a empresa também citou limitações regionais, com indisponibilidade em diversos países europeus. Como esse tipo de restrição pode mudar com o tempo, o jeito mais rápido de confirmar o status atual é checar a documentação de voz da própria OpenAI, como o Advanced Voice Mode FAQ e o guia geral de Voice Mode.
Dois pontos chamaram atenção por estarem fora do pacote. O primeiro foi a ausência da voz Sky, que tinha aparecido em apresentações e acabou retirada após questionamentos públicos sobre semelhança com a voz de Scarlett Johansson. O segundo foi a falta do compartilhamento de tela e vídeo, demonstrado meses antes como parte de uma experiência multimodal, sem um calendário público de lançamento naquele momento.
Como aproveitar no dia a dia e escolher vozes
O AVM tende a brilhar quando a prioridade é fluidez, não formatação. Uma forma simples de pensar é um mini modelo de mercado em três forças, que define se a experiência “se sustenta” no uso real:
- Naturalidade, a conversa precisa parecer diálogo, com pausas e retomadas sem travar.
- Contexto, o modelo precisa manter o fio do assunto por vários turnos, sem “zerar” o raciocínio.
- Tempo de resposta, áudio exige latência baixa, senão vira uma videoconferência ruim.
Regra de decisão, usar AVM quando as mãos estão ocupadas ou quando a nuance importa, e voltar ao texto quando for preciso precisão de termos, links, trechos copiáveis ou checagem passo a passo. Na prática, isso evita frustração com tarefas que ainda dependem de visual.
Exemplo prático, no caminho para o trabalho, dá para treinar um pitch de cinco minutos. Primeiro, pedir para o ChatGPT ouvir a apresentação e apontar onde a mensagem ficou vaga. Depois, pedir três variações do mesmo pitch para públicos diferentes, diretoria, cliente e time técnico. Por fim, escolher uma das nove vozes e repetir o treino, mantendo consistência de ritmo e tom.
Para personalizar a experiência, a OpenAI levou para o AVM recursos que já existiam no chat tradicional. Vale priorizar três ajustes, em vez de mexer em tudo:
- Instruções personalizadas, definir preferências de resposta como objetividade, nível técnico e idioma, conforme descrito no guia de Custom Instructions.
- Memória, permitir que o ChatGPT guarde detalhes úteis para conversas futuras, com controles e exclusão explicados em What is Memory.
- Escolha de voz, trocar a voz conforme o contexto, por exemplo uma voz mais calma para estudo, outra mais energética para brainstorming.
Mesmo com melhorias prometidas, a experiência de voz pode variar por rede, ruído do ambiente e microfone. Se houver interrupções indesejadas, o ajuste de isolamento de voz do próprio celular costuma ajudar, e a central de ajuda da OpenAI detalha essas boas práticas no material de Voice Mode.
