NVIDIA Vera Rubin: como os desenvolvedores dimensionarão IA de agentes sem latências
A NVIDIA lançou Vera Rubin — uma plataforma para IA de agentes de alta velocidade. Combina o GPU Vera Rubin e o acelerador Groq 3 LPX. Em modelos de um trilhão
Processado por IA de NVIDIA Developer Blog; editado por Hamidun News
A NVIDIA apresentou a plataforma Vera Rubin, que resolve o principal problema de dimensionar IA de agentes — latências impredizíveis em sessões multi-turno.
Por que a IA de agentes é mais difícil de dimensionar
O dimensionamento comum de modelos funciona para processamento em lote: você envia muitos textos, obtém muitas respostas. Mas a IA de agentes funciona de forma diferente. O agente toma uma decisão, executa uma ação, observa o resultado e toma a próxima decisão. São centenas de requisições ao modelo em uma única sessão, cada uma com um tamanho de lote pequeno e requisitos muito rigorosos de velocidade. Como a trajetória do agente é impredizível antecipadamente (qual ação o agente escolherá é desconhecido), compilar e otimizar o processamento é difícil. As latências se acumulam, e o contexto de 400K tokens se torna um gargalo.
Solução de três camadas da Vera Rubin
Em vez de uma abordagem universal, a NVIDIA incorporou na plataforma três tecnologias que funcionam juntas:
- Conexões de cabo diretas entre chips — cada LPU está conectado a 96 outros a 112 Gbps, fornecendo 640 TB/seg de largura de banda por rack sem comutadores
- O compilador planeja todas as transferências de dados antecipadamente — em vez de decidir em tempo de execução quando e para onde enviar dados, o compilador calcula antecipadamente cada bit de informação através da rede
- Sincronização de milhares de chips independentes — o sistema alinha os relógios dos aceleradores LPU para que a rede funcione com latência conhecida e previsível
Aceleração Híbrida: NVIDIA + Groq
A plataforma usa divisão de trabalho entre GPU e aceleradores especializados. O Vera Rubin NVL72 processa camadas de atenção (elas adoram alta largura de banda), enquanto o Groq 3 LPX assume as camadas FFN (elas exigem baixa latência na geração sequencial). O cache KV é sincronizado entre eles um token de cada vez. Parece complicado, mas como resultado, o sistema funciona sem compromissos entre velocidade e qualidade.
O que foi conseguido
- 400 tokens por segundo em modelos MoE de 1 trilhão de parâmetros com contexto de 400K
- 35x mais largura de banda por watt do que o GB200 NVL72
- Latência previsível mesmo com vários agentes operando simultaneamente
O que isso significa
Para desenvolvedores de agentes de IA, isso significa que de agora em diante, latência e escalabilidade não são inimigos. Vera Rubin permite deplorar modelos grandes (um trilhão de parâmetros) e executar agentes complexos sem compromisso na velocidade de resposta. Na prática, isso significa que assistentes pessoais, automatizadores e agentes de trabalho poderão funcionar rapidamente mesmo com contexto longo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.