Nvidia apresenta Groq 3: empresa aposta em chips dedicados para inferência de AI
A Nvidia apresentou o Groq 3, seu primeiro chip criado especificamente para inferência de AI. Ele não compete com o Rubin GPU em potência geral, mas atende a…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
A Nvidia apresentou o Groq 3 — o primeiro chip da empresa projetado especificamente para inferência de IA em vez de treinamento de modelos. Este é um sinal importante: o mercado está mudando de uma corrida por modelos cada vez maiores para uma corrida de quão rápido e barato esses modelos conseguem responder aos usuários.
Por que a Nvidia muda de rumo
Na conferência GTC, o CEO da Nvidia anunciou não apenas a linha Vera Rubin, mas também uma classe separada de processadores para inferência de modelos. O Groq 3 LPU é construído com base em tecnologia licenciada da startup Groq, que a Nvidia obteve uma licença no final do ano passado. O fato de aproximadamente dois anos e meio terem passado desde o licenciamento até o anúncio do produto mostra como a demanda por inferência em data centers está crescendo rapidamente.
"Finalmente a IA é capaz de fazer trabalho útil, e o ponto de inflexão
da inferência já chegou."
Treinamento e inferência resolvem problemas diferentes, então precisam de hardwares diferentes. Durante o treinamento, o sistema processa enormes quantidades de dados por semanas e atualiza os pesos do modelo. Durante a inferência, tudo acontece no momento de uma solicitação do usuário e, para modelos de raciocínio, uma sessão pode incluir múltiplos passes internos antes de um humano ver a resposta. Aqui, os fatores críticos não são FLOPS máximos, mas latência, fluxo de dados estável e tempo de geração de token previsível.
Como funciona o Groq 3
A abordagem da Groq difere do esquema familiar de GPU. Em vez de depender de memória HBM separada de alta velocidade ao lado do processador gráfico, o chip usa SRAM integrada diretamente no bloco de computação. Isso simplifica o movimento de dados: eles fluem através do processador linearmente, sem viagens extras para fora e de volta. Com isso, a arquitetura sacrifica universalidade mas vence onde a resposta mais rápida é necessária. Para inferência, onde o modelo gera tokens sequencialmente em vez de computar tudo em um grande lote, tal design é particularmente útil.
A diferença também é notável nas especificações. GPU Rubin permanece uma máquina para computações pesadas e modelos grandes, enquanto Groq 3 foi feita para um objetivo diferente — latência mínima no estágio de decode, quando a resposta já está sendo montada token por token. Em computações gerais e capacidade de memória, a LPU é notavelmente mais modesta, mas vence em throughput e é mais adequada para inferência final. Portanto, a Nvidia não substitui GPU por uma nova classe de chip, mas a complementa com um acelerador especializado.
- GPU Rubin tem 288 GB de HBM, Groq 3 tem cerca de 500 MB de SRAM integrada
- Rubin entrega até 50 petaflops em computações de 4 bits, Groq 3 — 1,2 petaflops em 8 bits
- Em throughput de memória, Groq 3 atinge 150 TB/s comparado a 22 TB/s para Rubin
- O foco do Groq 3 — não universalidade, mas geração rápida de tokens com baixa latência
Mercado se volta para inferência
Nos últimos dois anos, houve uma verdadeira explosão de startups em torno de chips de inferência. D-Matrix aposta em computação digital na memória, Etched — em ASICs para transformers, RainAI — em circuitos neuromórficos, EnCharge — em computação analógica na memória, FuriosaAI — em arquitetura para operações tensoriais. Com seu anúncio, a Nvidia não simplesmente adicionou outro produto, mas efetivamente confirmou: o nicho provou ser muito grande para ser ignorado dentro do império GPU.
Ao mesmo tempo, a aposta é colocada não apenas em um chip separado, mas em dividir a inferência em partes. A AWS recentemente mostrou um sistema com Trainium e Cerebras CS-3, onde prefill e decode são realizados por diferentes tipos de hardware. A Nvidia está seguindo a mesma direção: o novo módulo Groq 3 LPX incluirá oito LPUs e o sistema Vera Rubin.
Prefill e a parte mais pesada de decode permanecerão em Rubin, enquanto o estágio final de inferência — em Groq 3. Tal híbrido permite usar os pontos fortes de cada processador em vez de um compromisso.
O que isso significa
A principal notícia não é que a Nvidia lançou mais um acelerador, mas que o maior player do mercado reconheceu publicamente a inferência como uma classe separada de computação. Para produtos de IA, isso é uma boa notícia: se tais arquiteturas realmente escalarem em produção, as respostas dos modelos ficarão mais rápidas e a economia de uso em massa — mais previsível. O próximo estágio de competição em IA será não apenas pela qualidade dos modelos, mas pelo custo de um milhão de respostas úteis.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.