Por que o ChatGPT caiu e como reagir

A maior queda recente do ChatGPT, registrada nos relatórios públicos da OpenAI, foi causada por uma falha em cadeia na camada de banco de dados após picos de tráfego e um ajuste inadequado no serviço de pool de conexões. O episódio virou referência porque mostrou como um gargalo “invisível”, o banco, pode derrubar até um produto global e o que fazer para reduzir o impacto quando isso acontece.

O que aconteceu

Em 4 de junho de 2024, o ChatGPT passou por um apagão relevante, com impacto amplo em diferentes tipos de conta, e a normalização ocorreu em etapas. A OpenAI descreveu duas fases de indisponibilidade no mesmo período, com recuperação completa após redirecionar a operação para um alvo secundário de banco de dados. (Status da OpenAI)

Linha do tempo com horário do Brasil

Para quem estava no Brasil, o detalhe confunde porque o relatório usa fuso do Pacífico (PDT) e algumas atualizações aparecem em GMT. A conversão abaixo ajuda a visualizar o “vai e volta” do serviço descrito no write-up. (Relatório da OpenAI)

Fase	Início (PDT)	Início (Brasília)	Fim (PDT)	Fim (Brasília)
Queda 1	03/06/2024 23:49	04/06/2024 03:49	04/06/2024 04:10	04/06/2024 08:10
Queda 2	04/06/2024 07:14	04/06/2024 11:14	04/06/2024 10:07	04/06/2024 14:07

Quem foi afetado

Segundo a própria página de incidente, a falha atingiu serviços do ChatGPT em geral, enquanto a API não entrou no mesmo evento de indisponibilidade relatado ali. Na prática, isso explica por que equipes com integração via API, ou com alternativas internas, muitas vezes conseguem “passar reto” por uma queda do site. (Status da OpenAI)

O que a OpenAI explicou e corrigiu

O write-up aponta um problema de disponibilidade do banco de dados do qual o ChatGPT depende, agravado por surtos de tráfego que partiram do serviço de connection pooling e de como ele estava configurado. A resposta operacional incluiu reduzir carga, promover um secundário para primário e reintroduzir tráfego aos poucos. (Relatório da OpenAI)

Na lista de medidas, a OpenAI cita ajustes imediatos, como calibrar o número de conexões do pool, aumentar timeouts, aplicar backoff exponencial nas tentativas e melhorar o “load shedding”, que é a capacidade de degradar o serviço de forma controlada em vez de cair por completo. No médio prazo, a empresa também fala em redesenhar o banco para ganhar redundância e reforçar testes de carga e benchmarks. (Relatório da OpenAI)

O que fazer quando o ChatGPT sai do ar

Quando o problema é global, não existe “truque” que volte o serviço sozinho, mas dá para reduzir tempo perdido com um checklist simples. A diferença aqui é separar falha de servidor, falha de sessão e falha de navegador. (Página de status)

Primeiro passo: checar o status oficial e o componente “ChatGPT” para ver se é incidente ativo. (Status da OpenAI)
Regra de decisão: se o status indica problema no ChatGPT, priorizar app móvel e fluxos alternativos, e evitar retrabalho tentando logar repetidamente.
Hard refresh no navegador: a OpenAI chegou a recomendar atualização “forçada” após o incidente para o ChatGPT na web, com atalhos diferentes por sistema e navegador. (Instruções no incidente)

Exemplo prático: em uma equipe de marketing que usa o ChatGPT para rascunhos, a saída mais eficiente em uma queda é mudar temporariamente o fluxo para o que não depende do chat, como revisão humana do material já produzido, e deixar a geração nova para depois. Se existir automação via API, vale acionar o fallback, porque a própria OpenAI registrou que, naquele evento, a API não estava no escopo do impacto informado na página de status. (Status da OpenAI)

O que esse caso revela sobre o mercado de IA

Uma forma rápida de entender esse tipo de falha é o mini-modelo “Tráfego, Banco, Recuperação”. Produtos virais elevam tráfego, o banco vira gargalo se o desenho de redundância não acompanha, e o diferencial competitivo passa a ser recuperar com degradação controlada, não apenas ter o melhor modelo.

Para o usuário final, a lição é operacional: serviço de IA pode ser crítico como e-mail ou pagamentos, então vale tratar como infraestrutura, com planos de contingência e verificação em status page. Para mais atualizações, também faz sentido acompanhar a cobertura do nosso site e a página oficial de status.

Publicado

junho 5, 2024

Notícias

por

admin

Tags:

Confiabilidade, IA generativa, Status de serviço