O que o vídeo do Gemini não mostrou

Em dezembro de 2023, o Google publicou um vídeo de demonstração do Gemini que parecia mostrar uma interação multimodal fluida e em tempo real. Depois, a própria empresa indicou que a experiência retratada foi construída com prompts em texto, trechos encurtados e latência reduzida. Isso não significa que o Gemini “não exista”, mas coloca o vídeo mais perto de uma peça de marketing do que de um teste ao vivo.

O que o Google mostrou e o que estava por trás

O vídeo “hands-on” do Gemini circulou em 7 de dezembro de 2023 e viralizou por sugerir uma conversa contínua entre uma pessoa e o modelo, como se a IA estivesse “assistindo” à cena e respondendo na hora. Entre os trechos mais citados, apareciam tarefas como interpretar um desenho de pato e criar um jogo de “adivinhe o país” a partir de um mapa. A combinação de visão e linguagem é real, o ponto crítico foi o jeito como essa interação foi apresentada.

Após as reações, Oriol Vinyals, executivo do Google DeepMind, esclareceu que os prompts e as saídas exibidas eram reais, mas foram encurtados e acelerados para caber num vídeo curto. Na prática, a captura não foi uma conversa por voz em tempo real, e sim uma sequência baseada em texto, com cortes para reduzir pausas e respostas longas. O próprio upload do vídeo trazia um aviso de que a latência foi reduzida e as respostas foram abreviadas para “brevidade”.

Dois links ajudam a entender a diferença entre “capacidade do modelo” e “experiência no vídeo”. O primeiro é a reportagem que consolidou a crítica pública, em Cointelegraph. O segundo é a explicação técnica do Google, que detalha exemplos de prompts e interações multimodais, no Google Developers Blog.

Também houve análises apontando que o formato do vídeo induzia o público a imaginar uma “sessão contínua”, quando, na verdade, havia frames estáticos e instruções textuais por trás do resultado. Um resumo bem direto dessa leitura apareceu no TechCrunch, que descreve o contraste entre o que a câmera sugere e o que os prompts realmente pediam.

O custo de credibilidade em IA multimodal

Uma demo de IA costuma misturar ciência e narrativa, porque “funcionou uma vez no laboratório” não é a mesma coisa que “qualquer pessoa consegue reproduzir em produção”. O problema é quando a narrativa parece uma experiência de produto pronta, sem deixar claro o quanto foi coreografada. Em IA multimodal, isso pesa ainda mais, porque o público tende a interpretar fluidez como robustez.

As críticas mais fortes nas redes vieram do argumento de que o vídeo foi montado para parecer mais rápido e mais capaz do que seria numa interação comum. Nomes como Nelly R Q e o engenheiro conhecido como Chief Nerd foram citados em matérias sobre o tema, com a acusação central de que cortes e edição mudaram a percepção do que o usuário “de fato” teria em mãos naquele momento.

Outro ponto sensível foi o relato de que até funcionários do próprio Google questionaram internamente a peça por criar uma expectativa irreal, enquanto outros defenderam que marketing sempre “embala” tecnologia complexa para torná-la compreensível. Essa tensão é recorrente em empresas de IA: acelerar o hype ajuda a ganhar atenção, mas qualquer ruído de transparência vira munição para concorrentes e desconfiança para clientes corporativos.

Para o mercado, o episódio virou um lembrete de que o jogo não é só desempenho em benchmark. É confiança. Em ciclos de produto com IA, confiança se perde rápido e custa caro recuperar, especialmente quando a promessa é “parecido com humano”, que é exatamente onde o público menos tolera truques de edição.

Checklist para não cair em demo bonita

Uma demonstração pode ser legítima e ainda assim ser enganosa no “efeito final”. A saída é tratar demo como evidência parcial, e exigir sinais mínimos de reprodutibilidade.

Regra prática: se a demo não mostra o prompt completo, o tempo de resposta real e pelo menos um exemplo de falha, ela deve ser lida como teaser, não como prova de desempenho.

  • Prompt visível e completo, sem “narração” substituindo instruções. Em multimodal, isso inclui o que foi enviado como imagem, frame, recorte e texto.
  • Tempo real mensurável, com pausas, latência e repetições. Corte rápido é ótimo para vídeo, péssimo para avaliação.
  • Taxa de erro aparente, com um caso em que a IA interpreta errado e precisa de ajuste. Produto que só acerta em demo raramente escala bem.
  • Condições de teste, como modelo exato, configuração e limitações. “Gemini” pode significar variantes e versões diferentes ao longo do tempo.

Exemplo prático para o dia a dia

Suponha que uma equipe de produto queira usar IA para interpretar rascunhos feitos à mão e transformar em requisitos, fluxos ou perguntas para o usuário. Em vez de confiar no vídeo, o teste simples é repetir o cenário com 10 imagens parecidas, feitas por pessoas diferentes, e medir três coisas: tempo até primeira resposta, consistência das interpretações e quantidade de retrabalho no prompt.

Se em 10 tentativas a IA só “parece mágica” em 2, e nas outras 8 exige instruções cada vez mais longas para chegar no mesmo nível, a capacidade existe, mas o custo operacional também. É aí que uma demo editada costuma esconder a parte mais importante: o atrito.

Um mini modelo para avaliar demos

  • Tecnologia, o que o modelo consegue fazer quando tudo está bem configurado.
  • Tempo, quanto demora para chegar na resposta útil, incluindo latência e iterações.
  • Transparência, o quanto a empresa mostra do processo, limites e condições do teste.

Quando os três aparecem juntos, a demo vira ferramenta de decisão. Quando só “Tecnologia” aparece, geralmente é publicidade com aparência de laboratório.

Para contextualizar o tema e o produto, vale também ler uma explicação geral sobre a linha Gemini, como no artigo do próprio site: Gemini do Google e o salto da IA. E, para referência histórica do episódio, o texto que puxou a discussão pública segue como leitura complementar: Google’s Gemini demo accused of being ‘fake’.


Publicado

em

por