Atualizações da OpenAI com mais desempenho e preços

A OpenAI anunciou uma rodada de mudanças focada em custo e previsibilidade para quem usa a API, com novos modelos de embeddings mais baratos, queda de preço no GPT-3.5 Turbo, ajustes no GPT-4 Turbo Preview, uma atualização do modelo de moderação e mais controles de permissões e métricas por chave de API. Essas atualizações foram detalhadas no comunicado de 25 de janeiro de 2024 e na documentação de preços. openai.com

Embeddings novos com preço agressivo

Os modelos text-embedding-3-small e text-embedding-3-large chegaram para substituir, na prática, a geração anterior na maioria dos casos, com ganhos de qualidade em benchmarks e uma redução relevante de custo. No modelo small, a OpenAI aponta redução de 5x no preço em relação ao text-embedding-ada-002. openai.com

Para quem trabalha com busca semântica, recomendação, clusterização ou RAG, embeddings são a “assinatura numérica” de um texto ou trecho de código, que permite medir proximidade entre conteúdos com matemática simples. A vantagem é transformar linguagem em vetores comparáveis, para recuperar “o que parece com isso” em vez de depender só de palavra-chave. openai.com

Preços e desempenho declarados

text-embedding-3-small: US$ 0,00002 por 1.000 tokens, com melhora reportada em MIRACL e MTEB versus ada-002. openai.com
text-embedding-3-large: até 3.072 dimensões e preço de US$ 0,00013 por 1.000 tokens, com aumento maior nos mesmos benchmarks. openai.com

Modelo	Preço por 1.000 tokens	MIRACL (média)	MTEB (média)
text-embedding-3-small	US$ 0,00002	31,4% → 44,0%	61,0% → 62,3%
text-embedding-3-large	US$ 0,00013	31,4% → 54,9%	61,0% → 64,6%
gpt-3.5-turbo-0125	US$ 0,0005 (entrada) / US$ 0,0015 (saída)	N/A	N/A

Exemplo prático com limitação de vetor

Imagine um chatbot interno que consulta políticas de RH e manuais técnicos. O time quer usar o embedding mais forte, mas o banco vetorial aceita no máximo 1.024 dimensões. A OpenAI descreve que dá para usar o text-embedding-3-large e reduzir de 3.072 para 1.024 via parâmetro dimensions, trocando um pouco de acurácia por custo, memória e compatibilidade. openai.com

Para detalhes de implementação, a documentação de embeddings fica no guia da plataforma: Vector embeddings. platform.openai.com

Regra de decisão rápida

Se o objetivo é escala e custo: começar pelo text-embedding-3-small.
Se a busca precisa “achar mais certo”: usar text-embedding-3-large e, se houver limite do banco, reduzir dimensions antes de trocar de modelo.
Se o sistema estourou RAM ou storage: diminuir dimensions e medir impacto em recall@k com um conjunto fixo de consultas.

Modelos de chat com preço menor e respostas mais consistentes

No GPT-3.5 Turbo, a OpenAI apresentou o gpt-3.5-turbo-0125 e informou corte de 50% no custo de entrada e 25% no custo de saída, além de melhorias em respostas formatadas e correção de um problema de encoding em function calling fora do inglês. openai.com

Para o GPT-4 Turbo Preview, o modelo gpt-4-0125-preview foi descrito como mais cuidadoso em tarefas como geração de código e com correção do bug de UTF-8 em idiomas não ingleses. A OpenAI também citou o alias gpt-4-turbo-preview para receber upgrades automáticos do preview. openai.com

Quando a conversa é sobre orçamento, a regra mais útil é o triângulo custo, latência e qualidade: GPT-3.5 tende a ganhar em custo por volume, GPT-4 Turbo tende a ganhar quando o erro custa caro, como em código e tarefas com mais nuance. Os valores oficiais e atualizados ficam em Pricing. platform.openai.com

Moderação atualizada para reduzir risco

O modelo gratuito de moderação foi atualizado para text-moderation-007, descrito como a versão mais robusta até então, e os aliases “latest” e “stable” passaram a apontar para ele. Isso ajuda a padronizar checagens de conteúdo em pipelines de entrada, como chat, formulários e upload de texto. openai.com

Na prática, moderação funciona como um filtro antes e, se fizer sentido, depois da resposta do modelo, para sinalizar assédio, autolesão, violência ou outros tipos de conteúdo sensível. A referência do endpoint está em Moderations API. platform.openai.com

Permissões por chave e visão de uso mais detalhada

Para times e produtos com mais de um ambiente, a OpenAI destacou dois avanços: (1) atribuição de permissões por chave de API, para restringir endpoints e reduzir blast radius, e (2) visibilidade de uso por chave, facilitando rateio por projeto, equipe ou funcionalidade. openai.com

Uma forma simples de organizar isso é criar uma chave por serviço, com permissões mínimas, e nunca reutilizar a mesma chave entre backend, jobs e protótipos. Para políticas e papéis em ambientes maiores, vale consultar Manage permissions, e para permissões no nível da chave, a central mais direta é Assign API Key Permissions. platform.openai.com