OpenAI é acusada de treinar o GPT-4 com YouTube

Relatos publicados em abril de 2024 apontam que a OpenAI teria gerado transcrições de mais de 1 milhão de horas de vídeos do YouTube para treinar o GPT-4. Se isso ocorreu sem permissão, a prática pode bater de frente com as regras do YouTube sobre download, uso automatizado e reaproveitamento de conteúdo fora do serviço.

O que se sabe sobre o uso de vídeos do YouTube

Segundo reportagem do Gizmodo, baseada em apuração do The New York Times, a OpenAI teria transcrito mais de 1 milhão de horas de vídeos do YouTube e usado esse texto no treino do GPT-4. O The Verge detalhou o mesmo ponto e descreveu a transcrição como parte da corrida por dados de alta qualidade para modelos de linguagem. theverge.com

A alegação é sensível porque o YouTube não é só um “repositório público”, ele é um serviço com termos próprios. Esses termos incluem restrições explícitas a baixar e redistribuir conteúdo e a acessar o serviço por meios automatizados, como scrapers, sem autorização. youtube.com

As peças centrais dessa história

Volume e método: a hipótese descrita nas reportagens é a conversão de áudio em texto em escala, com uma ferramenta de transcrição.
Ferramenta citada: a OpenAI desenvolveu o Whisper, um sistema de reconhecimento automático de fala, justamente para transcrição em larga escala, segundo a própria empresa. Whisper. openai.com
Envolvimento interno: o relato do NYT, repercutido pelo The Verge, menciona participação de pessoas da liderança na coleta de vídeos, incluindo Greg Brockman. theverge.com

O que o YouTube disse, pelo menos em público

Poucos dias antes da repercussão, Neal Mohan, CEO do YouTube, afirmou em entrevista à Bloomberg que transcrever vídeos para treino de IA seria uma violação clara das políticas, num trecho que circulou em vídeo. Vídeo com o trecho citado.

O Google, dono do YouTube, também adotou cautela ao falar do assunto. Em declaração ao The Verge, um porta-voz disse que a empresa tinha visto “relatos não confirmados” sobre a OpenAI, reforçando que termos e mecanismos técnicos do YouTube proíbem scraping ou download não autorizado. theverge.com

Por que isso importa para direitos autorais e concorrência

O pano de fundo aqui é simples, dados bons viraram o gargalo da IA. Vídeo é “ouro” porque carrega linguagem natural falada, gírias, pausas, explicações, exemplos, tudo o que melhora um modelo que precisa soar humano em perguntas e respostas.

Ao mesmo tempo, é o tipo de conteúdo em que plataforma, criador e anunciantes têm interesses diretos, por isso as regras tendem a ser mais restritivas do que em páginas da web abertas. Nos próprios Termos do YouTube, há um ponto específico sobre o uso “independente do serviço”, que, na prática, mira exatamente o reaproveitamento fora do player e das permissões previstas. youtube.com

Mini modelo para entender a disputa

Dados: quem controla o estoque de exemplos reais para treinar modelos.
Direito: o limite entre licença contratual, copyright e a tese de fair use.
Distribuição: quem tem o canal, o YouTube distribui vídeo em escala planetária, quem domina distribuição dita as regras.

Esse tipo de atrito se soma a uma onda de processos sobre dados de treinamento. O próprio The New York Times entrou com ação contra a OpenAI e a Microsoft em dezembro de 2023, alegando uso indevido de conteúdo jornalístico para treinar sistemas, segundo cobertura da CNBC e da AP, e a OpenAI publicou uma página reunindo sua versão do caso. CNBC, AP, OpenAI sobre o processo do NYT. cnbc.com

Como empresas e criadores podem se proteger

A regra prática é tratar plataforma como contrato, não como “internet genérica”. Se o plano exige baixar, extrair e reaproveitar conteúdo fora do serviço, a presunção deve ser de risco alto, até existir licença ou permissão explícita.

Regra de decisão rápida para quem quer usar vídeo como dado

Se precisa de download ou scraping: parar e buscar autorização, o YouTube proíbe download e acesso automatizado não autorizado. Termos do YouTube. youtube.com
Se dá para usar via integração oficial: preferir APIs e políticas de desenvolvedor, que também têm regras específicas sobre armazenar e reutilizar conteúdo. Políticas da API do YouTube. developers.google.com
Se o uso vai treinar modelo comercial: tratar como licenciamento de conteúdo e direitos, não como “citação”.

Exemplo prático no contexto brasileiro

Uma edtech brasileira pode querer treinar um assistente de dúvidas usando aulas públicas de canais de vestibular. Mesmo que os vídeos sejam abertos, extrair as falas em massa para treinar um modelo próprio tende a esbarrar em termos da plataforma e, dependendo do caso, em direitos do criador. O caminho mais seguro costuma ser negociar autorização com os canais, usar conteúdo sob licença clara, ou trabalhar com materiais próprios, em vez de depender de extração automatizada.

No fim, a discussão não é só “quem roubou o quê”, é quem vai definir as regras do próximo ciclo de IA: as plataformas que hospedam conteúdo, os criadores que produzem, ou as empresas que precisam de dados para ganhar precisão e velocidade no produto. E essa resposta deve sair mais de contratos e tribunais do que de argumentos técnicos.