OpenAI o1-preview e o1-mini elevam o raciocínio

A série OpenAI o1-preview inaugurou uma linha de modelos focados em raciocínio, com a proposta de “pensar mais” antes de responder e ir melhor em tarefas difíceis de ciência, programação e matemática. No anúncio de 12 de setembro de 2024, a OpenAI também apresentou o o1-mini, uma alternativa mais barata e rápida para cenários, sobretudo de código, em que profundidade de raciocínio importa mais do que conhecimento geral amplo. openai.com

O que muda na série OpenAI o1

A série o1 foi anunciada como uma nova geração de modelos criada para melhorar desempenho em raciocínio complexo, especialmente em matemática, programação e áreas científicas. A proposta central é gastar mais tempo “deliberando” antes de emitir a resposta, em vez de apenas prever o próximo token o mais rápido possível. openai.com

No mesmo comunicado, a OpenAI explicou que o o1-preview era uma prévia, com expectativa de atualizações frequentes e avaliações já publicadas para a próxima versão em desenvolvimento. openai.com

Mini-modelo para entender o posicionamento

Dá para ler a família o1 como um ajuste do “triângulo” de produto em IA:

Profundidade de raciocínio: melhora quando o modelo tem tempo para tentar estratégias e checar erros.
Latência: tende a subir quando o modelo delibera mais antes de responder.
Custo: costuma acompanhar a profundidade, a menos que exista uma versão compacta como o o1-mini.

Como o o1-preview chega a respostas melhores

A OpenAI descreveu que treinou esses modelos para dedicar mais tempo à resolução do problema, refinando o raciocínio, testando abordagens alternativas e identificando falhas no caminho. Em termos práticos, é um modelo mais voltado para tarefas em várias etapas, com mais autocorreção. openai.com

Nos benchmarks citados pela OpenAI, a próxima atualização do modelo teria desempenho semelhante ao de doutorandos em tarefas desafiadoras de física, química e biologia. openai.com

Em matemática, a OpenAI afirmou que, em uma prova classificatória relacionada à Olimpíada Internacional de Matemática (IMO), o GPT-4o acertou 13% das questões, enquanto o modelo de raciocínio marcou 83%. openai.com

Em programação, a OpenAI também reportou avaliação em competições e resultado no percentil 89 no Codeforces. openai.com

Exemplo prático de uso

Cenário: um time precisa depurar um bug intermitente em um pipeline de dados que roda em várias etapas.

Como pedir: enviar o contexto mínimo do fluxo, listar hipóteses já testadas e pedir ao modelo para propor um plano em etapas com verificações, por exemplo “crie 5 hipóteses, ordene por probabilidade, e para cada uma descreva um teste objetivo e o sinal esperado”. Esse tipo de solicitação se beneficia do foco em raciocínio e checagem de erros que a série o1 tentou priorizar. openai.com

Segurança reforçada e resistência a jailbreak

Além de desempenho, a OpenAI destacou uma nova abordagem de treinamento de segurança para a família o1, explorando as próprias capacidades de raciocínio para seguir políticas mesmo quando o usuário tenta burlar regras, o chamado “jailbreaking”. openai.com

No teste mais difícil citado no anúncio, o GPT-4o marcou 22 em uma escala de 0 a 100, enquanto o o1-preview marcou 84. A OpenAI aponta detalhes no cartão do sistema do modelo e em materiais de pesquisa relacionados. openai.com

O comunicado também menciona avaliações com o Preparedness Framework, red teaming e revisão em nível de diretoria, além de acordos com os Institutos de Segurança em IA dos EUA e do Reino Unido para acesso antecipado a versões de pesquisa. openai.com

Leituras oficiais: cartão do sistema do o1-preview e Preparedness Framework. cdn.openai.com

o1-mini e a regra simples para escolher o modelo

Junto do o1-preview, a OpenAI lançou o o1-mini como uma opção menor, mais rápida e mais barata, descrita como especialmente eficaz em programação. A empresa afirmou que o o1-mini custa 80% menos do que o o1-preview, mirando aplicações que exigem raciocínio, mas não dependem de conhecimento geral amplo. openai.com

Regra de decisão rápida

Use o o1-preview quando a tarefa pede planejamento em várias etapas, matemática mais pesada, ou quando erros pequenos custam caro.
Use o o1-mini quando o foco é gerar e depurar código com bom custo-benefício e menor latência.
Considere outro modelo se a tarefa depende de recursos que, no lançamento, ainda não estavam presentes no o1-preview, como navegação na web e upload de arquivos e imagens, casos em que a própria OpenAI sugeriu que o GPT-4o poderia ser mais adequado no curto prazo. openai.com

Para quem integra via API, vale acompanhar a documentação de modelos, porque a OpenAI pode recomendar alternativas mais novas com mesma faixa de preço e latência, como a indicação de o3-mini na página do o1-mini. developers.openai.com

Como usar no ChatGPT e na API

No lançamento de 12 de setembro de 2024, a OpenAI informou que assinantes do ChatGPT Plus e Team poderiam selecionar o1-preview e o1-mini manualmente no seletor de modelos. Naquele momento inicial, os limites eram semanais, com 30 mensagens para o o1-preview e 50 para o o1-mini. openai.com

A OpenAI também publicou uma atualização em 17 de setembro de 2024: os limites passaram a ser 50 consultas por semana no o1-preview e 50 por dia no o1-mini. openai.com

Para ChatGPT Enterprise e Edu, o comunicado apontou liberação a partir da semana seguinte ao anúncio. openai.com

Na API, a OpenAI citou acesso para desenvolvedores no nível 5 de uso (tier 5), com limite de 20 RPM, e alertou que, naquele momento, o endpoint não oferecia recursos como function calling, streaming e suporte a system messages. Referências oficiais: plataforma da API e documentação do modelo o1-mini. openai.com

O que a OpenAI disse que vinha depois

A OpenAI posicionou o o1-preview como uma prévia inicial e afirmou que pretendia adicionar recursos para deixar os modelos mais úteis no produto, incluindo navegação, upload de arquivos e upload de imagens, além de seguir lançando tanto modelos da série GPT quanto da nova série o1. openai.com

Para ler o anúncio original em português: Apresentação do OpenAI o1-preview. openai.com