Microsoft antecipou o GPT-4 multimodal em 2023

Em 9 de março de 2023, um executivo da Microsoft Alemanha afirmou em um evento que o GPT-4 seria apresentado na semana seguinte e que a novidade seria a abordagem multimodal, combinando texto com outros tipos de entrada, como imagens e áudio, segundo relato do site Heise. Dias depois, em 14 de março de 2023, a OpenAI anunciou oficialmente o GPT-4 e descreveu suporte a entradas de texto e imagem, com liberação de visão de forma mais controlada no início. Link oficial.

O comentário que antecipou o lançamento

O caso começou em um encontro híbrido de cerca de uma hora, realizado em 9 de março de 2023, no qual a Microsoft Alemanha apresentou a ideia de LLMs como a família GPT para uso corporativo e posicionou sua oferta de Azure OpenAI como caminho de adoção, de acordo com o Heise. heise.de

Nesse contexto, Andreas Braun, então CTO da Microsoft Alemanha, comentou de forma informal que o GPT-4 seria apresentado na semana seguinte e que haveria modelos multimodais, citando até a possibilidade de lidar com vídeo. heise.de

“Vamos apresentar o GPT-4 na próxima semana. Teremos modelos multimodais que abrem possibilidades bem diferentes, por exemplo com vídeo.”

Andreas Braun

Para situar no calendário, a OpenAI publicou o anúncio do GPT-4 em 14 de março de 2023. openai.com

O que “multimodal” muda na prática

Na linguagem de produto, multimodalidade é quando o mesmo modelo entende mais de um tipo de dado, como texto e imagem, em vez de depender de “conversores” externos. A OpenAI descreveu o GPT-4 como capaz de receber texto e imagens como entrada, com texto como saída. openai.com

Do lado da Microsoft, a conversa sobre modelos com percepção visual já ganhava força naquele período com o Kosmos-1, apresentado como um modelo multimodal que combina linguagem e percepção visual. Artigo no arXiv. arxiv.org

Exemplo prático: um time de suporte pode mandar um print de erro e um trecho de log junto, pedir ao modelo para identificar o provável componente afetado e sugerir próximos passos. Em um fluxo corporativo, isso costuma viver perto de camadas de governança e auditoria, como as integrações e referências de serviço do Azure OpenAI. Referência no Microsoft Learn. learn.microsoft.com

Mini-modelo de mercado, útil para entender por que isso importou: Tecnologia (modelos mais capazes), Talento (gente treinada para usar e avaliar respostas) e Tempo (ciclos de deploy e governança). Quem acelera só a tecnologia costuma esbarrar nos outros dois.

Como decidir se vale usar no seu produto

A decisão não é “usar o maior modelo sempre”, e sim escolher o menor modelo que resolve a tarefa com segurança, custo e latência aceitáveis. Quando a entrada envolve imagem ou áudio, a multimodalidade pode reduzir etapas e diminuir perda de contexto.

  • Use multimodal: quando o usuário realmente envia imagem, diagrama, captura de tela, documento escaneado ou qualquer evidência visual, e o entendimento depende disso.
  • Fique no texto: quando a imagem só “ilustra” e não muda a decisão, ou quando a tarefa é padronizada, como respostas de FAQ e classificações simples.
  • Reforce com checagem: quando a resposta vira ação operacional, por exemplo bloquear conta, aprovar pagamento ou mudar configuração, inclua validações e trilhas de auditoria.

Um detalhe de contexto mais recente ajuda a interpretar o termo “GPT-4” hoje: a OpenAI registrou que, no ChatGPT, o GPT-4 foi descontinuado em 30 de abril de 2025 e substituído pelo GPT-4o, enquanto o GPT-4 continuou disponível via API. Link. help.openai.com


Publicado

em

por