OpenAI evita detalhar dados de treino do Sora

Uma entrevista sobre o Sora virou combustível para críticas porque a liderança técnica da OpenAI não detalhou quais fontes específicas entraram no treinamento do modelo. O episódio expôs o ponto mais sensível da IA generativa em 2026: transparência sobre dados, licenças e rastreabilidade não é mais “curiosidade”, é risco jurídico e de reputação.

O que pegou na entrevista sobre o Sora

O Sora foi apresentado pela OpenAI em fevereiro de 2024 como um modelo capaz de gerar vídeos a partir de texto, com foco em consistência visual e “entendimento” de dinâmica do mundo físico. Na época, a discussão saiu rápido do deslumbre para a pergunta de sempre: de onde vêm os dados de treino.

https://twitter.com/OpenAI/status/1758192957386342435

Em uma entrevista ao The Wall Street Journal conduzida por Joanna Stern, Mira Murati, então CTO da OpenAI, foi pressionada a explicar quais fontes compunham o treinamento do Sora. A resposta pública ficou no genérico, citando “dados licenciados e disponíveis publicamente”, e, quando perguntada sobre plataformas específicas como YouTube, Instagram ou Facebook, ela disse não ter certeza, segundo relatos que repercutiram em veículos que comentaram a entrevista.

O detalhe que agravou a percepção de evasão foi a insistência no mesmo mantra, sem avançar para uma explicação verificável. Também houve menção de que conteúdos da Shutterstock teriam entrado no conjunto de treino, mas isso apareceu de forma indireta em coberturas do caso, não como uma lista clara de fontes e condições.

Para referência do que circulou na época, a repercussão foi compilada por sites como 80.lv e por resumos em portais como Yahoo News.

Por que “dados públicos e licenciados” não resolve

O problema não é a empresa evitar abrir “a receita completa”. A fricção aparece porque “disponível publicamente” pode significar só que o conteúdo é acessível na internet, o que não equivale a permissão para treinamento em escala, e “licenciado” pode cobrir apenas uma parte do material usado, sem esclarecer o resto.

Na prática, a discussão deixou de ser “moral” e virou uma disputa por evidência. Uma forma simples de enxergar isso é a Tríade OLA, três perguntas que definem o grau de confiança em qualquer modelo treinado com conteúdo de terceiros:

Origem: de quais tipos de repositórios o conteúdo veio, e com que recorte.
Licença: qual a base legal, termos, exceções e limitações de uso.
Auditoria: se existe rastreabilidade mínima para responder a reclamações, remoções e disputas.

Se a conversa não passa do “público e licenciado”, normalmente falta pelo menos uma perna da tríade, e é aí que o risco explode, principalmente para uso comercial, publicidade e conteúdo com pessoas reais.

Vale observar que, com o tempo, a própria OpenAI passou a publicar páginas oficiais sobre o Sora e atualizações do produto, o que ajuda a entender capacidades e políticas atuais, ainda que isso não substitua a transparência histórica do dataset. Um ponto de partida é a página oficial Sora e o artigo de suporte Gerando vídeos no Sora.

Como a regulação acelera a cobrança

O episódio também aconteceu no mesmo período em que a União Europeia avançava na legislação de IA. Em 13 de março de 2024, o Parlamento Europeu aprovou o Regulamento de IA por ampla maioria, com obrigações calibradas por risco e exigências de transparência para modelos de uso geral, incluindo informações sobre conteúdo usado para treino e atenção a direitos autorais.

No Brasil, mesmo com o debate regulatório seguindo outro ritmo, o efeito de mercado é parecido: empresas que compram tecnologia começam a exigir documentação mínima para reduzir risco de processo, boicote de marca e retrabalho. Para ler a versão oficial do anúncio europeu, o comunicado está no Parlamento Europeu. A cobertura em português também saiu no Valor Econômico.

Regra prática para usar vídeo por IA sem dor de cabeça

Regra de decisão: se o fornecedor não consegue explicar de forma auditável a origem e o licenciamento do treino, trate o uso como alto risco para campanhas públicas e projetos com terceiros, e restrinja a protótipos internos ou materiais baseados em ativos próprios.

Exemplo prático: uma equipe de marketing quer criar um vídeo de 15 segundos para um e-commerce com “uma pessoa abrindo a caixa do produto”. Para reduzir risco, a decisão mais segura é gerar um clipe sem rosto realista, usar estilo mais ilustrado, ou produzir o vídeo a partir de imagens e vídeos que a marca já possui direitos, e só então usar a IA para variações de cenário, ritmo e câmera. Quando o objetivo é performance e escala, o ganho de tempo não compensa se houver chance de derrubada por direitos, reclamação de imagem ou bloqueio de plataforma.

Esse é o enquadramento de mercado que mais importa: a corrida do vídeo por IA não é só sobre qualidade, é sobre talento (quem treina e avalia melhor), tempo (quem lança e itera mais rápido) e licença (quem consegue sustentar o produto juridicamente). O Sora entrou no centro dessa disputa justamente no ponto em que “segredo industrial” colide com exigência de transparência.