A OpenAI, responsável pelo ChatGPT, pretende chegar a 2026 com um chip de IA próprio, segundo fontes ouvidas pela Reuters. A aposta busca reduzir custo por operação, aliviar gargalos de oferta de GPUs e ganhar mais controle sobre a infraestrutura que sustenta modelos e produtos de IA.
O que está em jogo com o chip próprio
O plano é desenvolver um chip personalizado para cargas de trabalho de IA, com foco em inferência, a etapa em que o modelo já treinado responde a usuários e aplicações. Na prática, isso tende a atacar o ponto que mais escala no dia a dia, o volume de requisições, onde pequenos ganhos de eficiência viram uma grande diferença na conta.
A lógica é simples: com demanda crescente, depender só de um tipo de hardware e de poucos fornecedores expõe a empresa a filas, preços altos e limites de capacidade. Um chip próprio também abre espaço para otimizar o hardware para padrões reais de uso, em vez de rodar tudo em hardware genérico pensado para vários cenários.
Mini modelo de mercado: a corrida de IA costuma girar em três eixos, Custo (preço por token e por requisição), Capacidade (quantos usuários dá para atender) e Controle (prioridade na cadeia de suprimentos e otimizações internas). Chips próprios são uma tentativa de melhorar os três ao mesmo tempo, mesmo que levem tempo para maturar.
Parcerias e estratégia de fornecimento
O projeto citado envolve parceiros como a Broadcom e a TSMC, que entram como peças centrais para viabilizar a produção de chips personalizados. Esse tipo de parceria costuma separar o que é desenho do chip, fabricação e empacotamento, permitindo que a empresa foque na arquitetura e deixe a manufatura para quem já opera em escala global.
Ao mesmo tempo, a OpenAI vem ampliando o leque de hardware para reduzir a dependência de um único fornecedor. A AMD aparece como fornecedora para complementar o uso de GPUs da Nvidia, uma forma de diluir risco em um mercado com restrições de oferta e variações fortes de preço.
Como isso se conecta ao Azure e à Microsoft
Os chips da AMD seriam usados no Azure, plataforma de nuvem da Microsoft, reforçando a integração com o ecossistema onde boa parte da infraestrutura de IA já roda. Para a operação, isso significa mais caminhos para adquirir capacidade computacional sem ficar preso a um único pipeline de compra e entrega.
Decisão prática: quando a prioridade é previsibilidade de capacidade, a regra costuma ser diversificar o hardware na nuvem. Quando a prioridade vira eficiência extrema em um padrão muito repetitivo de requisições, começa a fazer sentido investir em customização, mesmo que o retorno venha apenas no médio prazo.
Equipe, foco em inferência e próximos passos
A OpenAI já teria reunido uma equipe especializada de cerca de 20 engenheiros, incluindo profissionais com experiência em TPUs do Google. Um time assim é especialmente relevante para chips de inferência, porque o trabalho envolve decisões finas de arquitetura para acelerar etapas específicas do caminho de execução do modelo.
Mesmo com o movimento em direção a um chip próprio e com a ampliação para AMD, a parceria com a Nvidia segue no radar, com adoção da geração Blackwell para futuras necessidades de IA. A leitura mais direta é de estratégia híbrida: manter o que já entrega performance no curto prazo, enquanto se constrói autonomia para reduzir custo e risco no longo prazo.
Exemplo de impacto no mundo real: um serviço de atendimento ao cliente que usa IA 24 horas, com picos de tráfego, normalmente gasta mais com inferência do que com treinamento. Se o custo por resposta cair e a capacidade ficar mais estável, o serviço ganha margem para oferecer respostas mais longas, manter latência baixa e suportar mais usuários sem reajustar preço toda vez que o mercado de GPUs aperta.
- Para quem isso importa mais: produtos com alto volume de chamadas, onde cada centavo por requisição conta.
- O que observar até 2026: cronograma real de tape-out e produção, dependência de capacidade fabril e sinais de adoção interna em serviços de inferência.
- Risco clássico: chips próprios raramente substituem tudo de uma vez, eles entram por partes, em workloads bem definidos.
