Como modelos menores podem supervisionar IAs mais fortes

A “generalização fraca para forte” é uma linha de pesquisa que tenta usar um supervisor menos capaz para orientar um modelo mais poderoso, sem que o modelo grande apenas copie os erros do pequeno. Em 14 de dezembro de 2023, a OpenAI apresentou resultados iniciais mostrando que é possível recuperar parte do desempenho de um sistema no nível do GPT-4 usando supervisão no nível do GPT-2, um indício prático de como a supervisão pode escalar quando o avaliador é “mais fraco” que o avaliado.

Por que supervisionar IA forte virou o gargalo

Boa parte do alinhamento moderno depende de supervisão humana, como no RLHF, em que pessoas julgam se uma resposta está boa ou ruim. O problema é que, conforme modelos ficam mais capazes, eles passam a produzir saídas complexas demais para revisão confiável, por exemplo grandes volumes de código ou raciocínios longos com erros difíceis de perceber.

Nesse cenário, o “supervisor” deixa de ser a referência máxima de qualidade. Ele vira um supervisor fraco, não por incompetência, mas por limitação prática diante de uma máquina mais rápida e mais detalhista.

Para deixar o conceito mais concreto, a proposta trabalha com três peças:

Supervisor fraco: modelo menor que gera rótulos, notas ou preferências com mais erro.
Modelo forte: modelo maior que já tem capacidade “latente” no pré-treino, mas precisa ser direcionado.
Generalização: a esperança de que o modelo forte siga a intenção por trás da supervisão, não os deslizes do supervisor.

O que mudou na prática com fraco para forte

A analogia estudada pela OpenAI é simples: em vez de humanos supervisionarem modelos, um modelo menor supervisiona um maior. A expectativa ingênua seria que o modelo grande aprendesse a repetir os mesmos erros do pequeno, criando um teto de qualidade baixo.

O resultado interessante veio ao usar um método que incentiva o modelo forte a manter confiança nas próprias previsões, inclusive para discordar do supervisor fraco quando fizer sentido. Nos experimentos descritos pela OpenAI, supervisionar um GPT-4 com um supervisor no nível do GPT-2, em tarefas de NLP, levou a um modelo final que tende a performar entre GPT-3 e GPT-3.5, recuperando uma parte relevante das capacidades do modelo maior.

Exemplo prático: imagine um time que quer ajustar um assistente jurídico interno, mas não consegue pagar por revisão humana completa de milhares de respostas. Uma estratégia inspirada em fraco para forte seria:

Passo 1: um modelo menor rotula respostas como “aceitável” ou “problemática”, ainda que com falhas.
Passo 2: o modelo grande é ajustado para aprender o padrão geral, mas com espaço para rejeitar rótulos claramente ruins.
Passo 3: auditorias humanas por amostragem e testes adversariais cobrem os pontos de maior risco.

Quando a abordagem ajuda e quando atrapalha

O próprio trabalho trata o método como prova de conceito e aponta limitações importantes, inclusive casos em que ainda não funciona bem, como preferências no estilo ChatGPT. O alerta é direto: supervisão fraca pode escalar mal se o modelo forte aprender a imitar erros em vez de revelar conhecimento latente.

Regra rápida de decisão: use fraco para forte quando o modelo forte já “sabe” a tarefa (por pré-treino) e o gargalo é produzir sinais de supervisão em escala, mas evite quando a tarefa exige julgamento humano fino e a taxa de erro aceitável é muito baixa.

Para situar isso no mercado, vale um mini modelo de três forças, Tecnologia, Talento e Tempo:

Tecnologia: capacidade do modelo forte cresce mais rápido que o restante do stack.
Talento: supervisores (humanos ou modelos menores) não acompanham no mesmo ritmo.
Tempo: ciclos de testes, auditoria e iteração viram o amortecedor do risco.

A generalização fraca para forte tenta comprar “Tempo” com automação, sem perder tanto em “Talento”, e isso explica por que o tema aparece como peça de “scalable oversight” e superalinhamento.

Onde ler, testar e acompanhar os próximos passos

Quem quiser ir à fonte pode começar pelo texto da OpenAI e pelo PDF do artigo, que detalham setup, resultados e limitações: Weak-to-strong generalization e paper em PDF.

Para reproduzir experimentos, há código aberto no GitHub: openai/weak-to-strong.

A OpenAI também anunciou um programa de US$ 10 milhões em bolsas e grants voltado a segurança e alinhamento, incluindo fraco para forte, interpretabilidade e scalable oversight. Como prazos e rodadas podem mudar, o caminho mais seguro é conferir a página oficial: Superalignment Fast Grants.