OpenAI e NYT disputam suposto hack do ChatGPT

A OpenAI acusou o The New York Times de ter forçado resultados incomuns no ChatGPT para sustentar uma ação de direitos autorais, alegando exploração de um bug e uso de prompts “deceptivos”. O NYT rebateu, dizendo que apenas testou o produto para encontrar evidências de cópia indevida, que seria bem maior do que os exemplos citados.

O que a OpenAI chamou de “hack”

Na petição apresentada no fim de fevereiro de 2024, a OpenAI afirmou que os exemplos exibidos pelo NYT com trechos extensos parecidos com textos do jornal não surgiriam em um uso normal do ChatGPT. A tese é que teria sido necessário insistir em massa, com muitas tentativas, para “puxar” saídas raras e anômalas. arstechnica.com

Segundo a OpenAI, o NYT teria direcionado a interação para explorar um bug e obter respostas que se encaixassem no argumento do processo, como reprodução de material do jornal ou “alucinações” que aparentassem conteúdo do Times. A empresa também sugeriu que esse trabalho foi feito por um especialista contratado, e que a estratégia não reflete a experiência típica do usuário. theguardian.com

Outro ponto central é o argumento de substituição. A OpenAI afirmou que, na prática, o ChatGPT não funciona como alternativa confiável a uma assinatura do NYT, e que não seria possível “pedir artigos à vontade” de forma consistente no fluxo normal de uso. theguardian.com

Regurgitação: quando um modelo repete trechos muito próximos de dados vistos no treino, em vez de gerar uma resposta nova e transformada.
Alucinação: quando o sistema “inventa” detalhes com aparência plausível, o que pode dar a impressão de estar citando uma fonte real.
Prompt direcionado: comando escrito para contornar proteções, por exemplo pedindo “a próxima frase” repetidamente, até o modelo começar a completar um texto.

O que o NYT nega e o que está pedindo na Justiça

O NYT negou a acusação de “hack”. A posição do jornal, transmitida por seu advogado, é que o que a OpenAI chama de manipulação seria, na realidade, uma checagem do próprio produto para localizar sinais de uso indevido de obras protegidas, e que os exemplos apresentados seriam apenas uma amostra. arstechnica.com

O processo do NYT contra OpenAI e Microsoft foi noticiado como parte de uma onda de disputas sobre treino de modelos com conteúdo protegido. A OpenAI, por sua vez, pediu ao juiz que derrube grande parte das alegações, incluindo pontos ligados a infração direta e contributiva, DMCA e outras teses, dizendo que haveria fragilidade jurídica, prescrição em parte dos fatos e conflitos com princípios como fair use e preempção por lei federal. washingtonpost.com

Na prática, mesmo uma vitória parcial de qualquer lado não tende a “desligar a IA” do dia para a noite. O que costuma estar em jogo em casos assim é combinação de obrigações, como limitar certos tipos de saída, criar salvaguardas, discutir remuneração e licenciamento, e, em cenários mais duros, impor remoção de conteúdo de bases de treino e reprocessamento de modelos ou partes do pipeline. washingtonpost.com

Como ler o caso além do tribunal

Para entender o impacto real, vale um mini modelo de mercado simples, o “3P da IA generativa”: Proveniência (de onde veio o conteúdo), Produto (o que o sistema entrega na ponta) e Proteções (controles para evitar cópia e vazamento). O NYT pressiona a Proveniência, a OpenAI tenta enquadrar o debate em Produto e Proteções.

Exemplo prático: um veículo brasileiro que quer usar um chatbot para atender assinantes pode reduzir risco ao evitar que o modelo “improvise” com conteúdo de terceiros, e preferir um fluxo com busca em base própria, links e trechos curtos. Na operação, isso costuma significar usar RAG com o acervo licenciado, registrar prompts, bloquear pedidos do tipo “continue o texto” e limitar o tamanho de citações retornadas.

Regra de decisão: se for possível obter parágrafos longos e identificáveis de um conteúdo protegido com poucos prompts comuns, o caso parece mais próximo de falha de controle de saída e risco de substituição. Se só aparecer após milhares de tentativas, com prompts artificiais e exploração de comportamento raro, a evidência tende a pesar mais como bug e menos como “uso típico”, embora ainda seja relevante para segurança e compliance.

Sugestão de imagem ilustrativa

Para uma imagem em estilo cinema, imaginar um tribunal com os logotipos da OpenAI e do NYT em lados opostos. No centro, uma figura que represente um chatbot cercado por linhas de código e folhas de documentos, sugerindo o conflito entre inovação, direitos autorais e controle de saída.