Update para o GPT-5.4

Segundo a OpenAI, o GPT-5.4 é um modelo de fronteira otimizado de forma direcionada para trabalho profissional do conhecimento e fluxos agentivos, disponível no ChatGPT, na API e no Codex. Na prática, ele combina planejamento e pesquisa mais fortes, excelente capacidade de programação, uso nativo do computador e eficiência de tokens significativamente melhor, para que tarefas complexas avancem com menos idas e vindas e menor custo. Além disso, existe o GPT-5.4 Pro para desempenho máximo em tarefas especialmente exigentes.

O que o GPT-5.4 entrega na prática

Qual variante combina com cada modo de trabalho

O GPT-5.4 chega ao ChatGPT como GPT-5.4 Thinking e também está disponível em API e Codex. Para tarefas de complexidade máxima, a empresa oferece ainda o GPT-5.4 Pro no ChatGPT e na API.

No ChatGPT, o GPT-5.4 Thinking pode esboçar um plano de trabalho logo no início, para que ajustes sejam feitos cedo, antes que o modelo mergulhe nos detalhes. A proposta é reduzir ciclos de iteração, especialmente em entregáveis como documentos, apresentações e planilhas, que normalmente exigem várias rodadas.

Para agentes, também é relevante que o GPT-5.4 traga funções nativas de uso do computador na API e no Codex, além de suportar até 1 milhão de tokens de contexto, permitindo que planejamento, execução e revisão se mantenham estáveis ao longo de fluxos mais longos.

Posicionamento de mercado como modelo mini Task Tool Token

Em 2026, o salto do GPT-5.4 pode ser entendido com um tripé simples: Task, Tool e Token. Task representa a qualidade em entregas reais de trabalho. Tool representa a capacidade de usar software e APIs com confiabilidade. Token representa custo e velocidade em contextos longos.

O GPT-5.4 atua nas três frentes ao mesmo tempo: melhora o trabalho do conhecimento, melhora agentes que operam via ferramentas e computador e reduz o consumo de tokens no raciocínio em comparação com o GPT-5.2. Em termos de mercado, essa é a diferença entre um “bom chat” e um “executor confiável” para processos que realmente consomem tempo nas equipes.

Regra prática de decisão para times e desenvolvedores

Uma regra de escolha robusta é: Thinking para trabalho intelectual com muito planejamento e pesquisa na web; Pro quando a tarefa for de alto risco ou muito ramificada, como análises jurídicas, modelos financeiros complexos ou cadeias longas de ferramentas com muitas dependências. O GPT-5.4 na API vale especialmente a pena quando um agente precisa operar com muitas ferramentas e aplicações, e o gargalo anterior era contexto longo ou custo de tokens.

Quando a latência importa mais do que a profundidade máxima, o Codex oferece adicionalmente um modo /fast, que, segundo a OpenAI, aumenta a velocidade de saída de tokens sem trocar de modelo. Isso é útil em ciclos de depuração em que velocidade faz diferença no fluxo de trabalho.

Desempenho em números

Quais números comprovam o salto de desempenho

A OpenAI relata vários benchmarks que cobrem diferentes modos de trabalho: trabalho do conhecimento, programação, uso de ferramentas e pesquisa web agentiva. A visão geral abaixo mostra os valores citados no artigo para GPT-5.4, GPT-5.3-Codex e GPT-5.2.

Benchmark GPT-5.4 GPT-5.3-Codex GPT-5.2
GDPval (vitórias ou empates) 83,0% 70,9% 70,9%
SWE-Bench Pro (Public) 57,7% 56,8% 55,6%
OSWorld-Verified 75,0% 74,0% 47,3%
Toolathlon 54,6% 51,9% 46,3%
BrowseComp 82,7% 77,3% 65,8%

Observação da fonte: o valor de OSWorld para o GPT-5.3-Codex, segundo a OpenAI, está relacionado a um novo parâmetro de API que preserva a resolução original da imagem. Além disso, um valor de OSWorld comunicado anteriormente foi corrigido.

Como artefatos de Office e confiabilidade factual evoluem

No benchmark GDPval, que avalia trabalho do conhecimento bem especificado em 44 profissões, o GPT-5.4 alcança, segundo a OpenAI, pelo menos empate com profissionais do mercado em 83,0% das comparações. Na mesma visualização, o GPT-5.2 ficou em 70,9%.

Para trabalho típico de escritório, a OpenAI cita duas medições internas: em tarefas de modelagem em planilhas, como as encontradas em cargos juniores de investment banking, a média sobe de 68,4% para 87,3%. Em tarefas de apresentação, avaliadores humanos preferiram os resultados do GPT-5.4 em 68,0% dos casos, citando melhor design, maior variedade visual e geração de imagens mais eficaz.

Além disso, o GPT-5.4 busca reduzir afirmações falsas: segundo a OpenAI, alegações individuais estão 33% menos propensas a estar erradas, e respostas completas estão 18% menos propensas a conter erros, ambos os números em relação ao GPT-5.2, com base em prompts desidentificados marcados por usuários por conterem falhas.

Para uso corporativo, a OpenAI também recomenda um novo add-in do ChatGPT para Excel, aproximando esse tipo de trabalho com artefatos dos fluxos já existentes nas empresas.

Agentes no computador e em imagens

O que o uso nativo do computador muda para agentes

Segundo a OpenAI, o GPT-5.4 é o primeiro modelo generalista da empresa com uso nativo do computador em nível state of the art. Isso se refere a agentes que operam software por meio de screenshots, ações de mouse e teclado ou bibliotecas de automação como Playwright.

Para desenvolvedores, o ponto central é a controlabilidade: o comportamento pode ser refinado por meio de Developer Messages, e também é possível definir regras de confirmação para que ações mais arriscadas só sejam executadas após aprovação. A OpenAI posiciona isso como um ajuste fino entre autonomia e compliance.

No OSWorld-Verified, um teste de ambiente desktop com navegação e entrada baseadas em screenshots, a OpenAI relata 75,0% de sucesso, contra 47,3% no GPT-5.2. Na mesma fonte, o desempenho humano é informado como 72,4%.

Quais detalhes visuais realmente passam a importar

A capacidade de operar no computador depende de percepção visual estável. A OpenAI informa 81,2% no MMMU-Pro sem uso de ferramentas para o GPT-5.4, contra 79,5% no GPT-5.2.

No entendimento de documentos, o erro no OmniDocBench cai, segundo a OpenAI, de 0,140 para 0,109, medido como distância de edição normalizada. O detalhe importante aqui é o modo de custo: o OmniDocBench foi medido sem custo adicional de reasoning, para refletir uma operação de baixo custo e baixa latência.

Também há novos níveis graduais de detalhe de imagem na API: um modo original deve suportar até 10,24 milhões de pixels de área total ou no máximo 6000 pixels em um dos lados, o que ocorrer primeiro. O modo anterior high é descrito com até 2,56 milhões de pixels ou dimensão máxima de 2048 pixels.

Fluxo de desenvolvimento e ecossistema de ferramentas

Por que desenvolvedores precisam trocar menos de contexto

O GPT-5.4 deve unir os pontos fortes de código do GPT-5.3-Codex com capacidades de agente e de criação de artefatos de escritório, o que importa especialmente em tarefas longas, nas quais é preciso iterar, testar e verificar via ferramentas. No SWE-Bench Pro, o GPT-5.4 aparece ligeiramente à frente do GPT-5.3-Codex nos números citados, enquanto a OpenAI também destaca menor latência entre diferentes níveis de reasoning.

No Codex, um modo /fast pode elevar a velocidade de geração, segundo a OpenAI, em até 1,5x de token velocity, sem alterar a “inteligência” do modelo. Na API, para objetivos parecidos, é citado o recurso de Priority Processing.

A OpenAI também destaca avanços em tarefas complexas de frontend, com funcionalidade mais forte e design visivelmente melhor. Um exemplo é a skill experimental do Codex chamada Playwright (Interactive), que permite debugging visual e playtesting durante o processo de build.

Como o Tool Search reduz custos em ecossistemas de ferramentas

O Tool Search ataca um problema real de escala: quando um agente conhece muitas ferramentas, o modelo tradicional de “colocar tudo no prompt” pode inflar a entrada em milhares ou dezenas de milhares de tokens. O Tool Search inverte essa lógica: o modelo recebe primeiro apenas uma lista enxuta de ferramentas e pode carregar definições sob demanda.

A OpenAI demonstra isso com 250 tarefas do benchmark MCP Atlas, da Scale, com 36 servidores MCP habilitados: com Tool Search, o consumo médio de tokens cai 47%, mantendo a mesma precisão. Além do custo, isso impacta velocidade e estabilidade do contexto, porque menos “texto morto” ocupa cache e janela de contexto.

O que muda na pesquisa web agentiva

Para informações difíceis de encontrar, a OpenAI usa o BrowseComp como referência. Nele, o GPT-5.4 sobe 17 pontos percentuais absolutos em relação ao GPT-5.2. Já o GPT-5.4 Pro chega, segundo a fonte, a 89,3%, estabelecendo um novo melhor resultado.

Na prática, isso significa que o modelo tende a conduzir buscas em múltiplas etapas com mais persistência, ponderar melhor as fontes e consolidar resultados de forma mais limpa, especialmente em perguntas muito específicas, do tipo “agulha no palheiro”. A OpenAI também menciona blocklists para reduzir contaminação de benchmark.

Aplicação prática

Um exemplo end-to-end do dia a dia corporativo

Exemplo: um time financeiro precisa, toda semana, revisar notas fiscais de fornecedores, esclarecer divergências e atualizar um slide gerencial. Com o GPT-5.4, um agente pode primeiro definir o plano: quais campos da planilha precisam ser verificados, quais comprovantes estão faltando, quais perguntas devem ir para Compras e quais indicadores entram na apresentação.

Depois, a execução segue por três frentes: a lógica da planilha é criada ou editada em um spreadsheet, documentos são extraídos de contratos longos e PDFs, e, quando necessário, o agente opera uma interface web para conferências, como portais ou ferramentas internas. A decisão sobre usar o nível de detalhe original nas imagens segue uma regra simples: ativar apenas quando precisão de clique ou elementos pequenos da interface forem relevantes; nos demais casos, manter o modo de detalhe mais econômico.

Na maior parte do tempo, o ganho principal não vem de uma única resposta melhor, mas da redução dos ciclos de correção: menos alucinações, contexto mais estável ao longo de várias etapas e Tool Search para evitar pagar novamente pelas mesmas definições de ferramenta em cada requisição.


Publicado

em

por

Tags: