Chip Sohu promete turbinar IA além das GPUs

O Sohu é um chipset de IA da startup Etched, criado para rodar modelos do tipo Transformer, a mesma família por trás de chatbots como o ChatGPT. A empresa afirma que ele pode ser até 20 vezes mais rápido que a GPU Nvidia H100 em tarefas específicas, mas esse ganho depende do tipo de carga e do nível de especialização exigido.

Sohu é o nome do novo chipset que promete mudar como modelos de IA generativa são executados, saindo do caminho padrão de GPUs e indo para um chip dedicado. A Etched, fundada por dois ex-alunos de Harvard, diz que o foco do produto é acelerar Transformers, reduzindo latência e custo por token em produção.

Novo Chip de IA "Vai Revolucionar o ChatGPT", Afirma Startup Fundada por Ex-Alunos de Harvard

Hoje, a maioria dos modelos por trás de chatbots roda em GPUs da Nvidia, como a H100 e sistemas baseados na geração mais nova, como o DGX B200. A aposta da Etched é simples, em vez de usar um hardware generalista e extremamente flexível, colocar a performance onde realmente importa para LLMs.

Por que um ASIC pode bater uma GPU

O Sohu é um ASIC, sigla para circuito integrado de aplicação específica. Na prática, isso significa abrir mão de flexibilidade para extrair eficiência máxima em um tipo de trabalho, aqui, a inferência de modelos Transformer, quando o usuário faz uma pergunta e o modelo gera tokens como resposta.

GPUs são excelentes porque fazem muita coisa bem, treino, inferência, visão computacional e simulação numérica, entre outras. Um chip dedicado, por outro lado, tende a vencer quando o caminho de execução é previsível e repetitivo, como acontece em partes críticas do Transformer, desde que o software e os modelos estejam alinhados ao hardware.

Desempenho prometido: a Etched afirma que o Sohu pode ser até 20 vezes mais rápido que a H100 e 10 vezes mais rápido que a B200 em cenários focados em Transformers.
Especialização: por ser dedicado, o Sohu não foi pensado para rodar todo tipo de rede neural, a proposta é priorizar Transformers, não ser “a GPU para tudo”.
O que pode destravar: quando a latência cai e o custo por requisição diminui, ficam mais viáveis casos como tradução em tempo real e modelos multimodais atendendo texto e imagem com mais fluidez.

Desempenho: O Sohu é supostamente 20 vezes mais rápido que o H100 e 10 vezes mais rápido que o B200.

Mini-modelo para entender a disputa

O jeito mais direto de comparar GPU e ASIC em IA é olhar para a tríade Flexibilidade, Latência e Custo por token. GPUs geralmente vencem em flexibilidade, ASICs tentam dominar latência e custo em um recorte bem definido do problema.

Exemplo prático no mundo real

Imagine uma central de atendimento no Brasil que usa um LLM para sugerir respostas e traduzir conversas em tempo real. Se o modelo é relativamente estável e a operação gera um volume alto e constante de tokens por dia, um acelerador dedicado pode reduzir o tempo de resposta e o gasto por atendimento. Se o time troca de arquitetura com frequência, testa modelos novos toda semana ou mistura várias tarefas fora de Transformers, a GPU costuma ser a escolha mais segura.

Regra de decisão rápida

Se mais de 70% da sua demanda é inferência de Transformer em produção, com modelo “congelado” por meses e alta utilização do hardware, um ASIC começa a fazer sentido. Se a prioridade é experimentar, treinar, mudar de modelo toda hora ou atender workloads variados, a GPU tende a entregar melhor custo total, por evitar ficar preso a um caminho único.

Financiamento, fabricação e o teste decisivo

https://twitter.com/Etched/status/1805775989500428739

A Etched anunciou que levantou US$ 120 milhões em 25 de junho de 2024 para desenvolver o Sohu. A empresa também diz ter um acordo com a TSMC para fabricar o chip em processo de 4 nanômetros.

A data de lançamento ainda não está clara, e a Etched afirma ter “dezenas de milhões de dólares” em pré-encomendas de hardware. Esse é o ponto em que o mercado costuma separar promessa de entrega, porque não basta o silício ser rápido, é preciso ecossistema de software, integração com frameworks e disponibilidade em escala.

Para avaliar se o Sohu realmente mexe no tabuleiro, vale observar três sinais: benchmarks independentes em workloads reais de LLM, maturidade do stack de software para servir modelos e capacidade de produção e entrega. Se esses itens se confirmarem, um chip dedicado a Transformers pode virar uma peça relevante em data centers, principalmente onde latência e custo por token são o gargalo.

Publicado

julho 16, 2024

Notícias

por

admin

Tags:

Computação em nuvem, Hardware de IA, Semicondutores