NVIDIA Developer Blog→ original

NVIDIA Vera Rubin: como os desenvolvedores dimensionarão IA de agentes sem latências

A NVIDIA lançou Vera Rubin — uma plataforma para IA de agentes de alta velocidade. Combina o GPU Vera Rubin e o acelerador Groq 3 LPX. Em modelos de um trilhão

Processado por IA de NVIDIA Developer Blog; editado por Hamidun News
NVIDIA Vera Rubin: como os desenvolvedores dimensionarão IA de agentes sem latências
Fonte: NVIDIA Developer Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A NVIDIA apresentou a plataforma Vera Rubin, que resolve o principal problema de dimensionar IA de agentes — latências impredizíveis em sessões multi-turno.

Por que a IA de agentes é mais difícil de dimensionar

O dimensionamento comum de modelos funciona para processamento em lote: você envia muitos textos, obtém muitas respostas. Mas a IA de agentes funciona de forma diferente. O agente toma uma decisão, executa uma ação, observa o resultado e toma a próxima decisão. São centenas de requisições ao modelo em uma única sessão, cada uma com um tamanho de lote pequeno e requisitos muito rigorosos de velocidade. Como a trajetória do agente é impredizível antecipadamente (qual ação o agente escolherá é desconhecido), compilar e otimizar o processamento é difícil. As latências se acumulam, e o contexto de 400K tokens se torna um gargalo.

Solução de três camadas da Vera Rubin

Em vez de uma abordagem universal, a NVIDIA incorporou na plataforma três tecnologias que funcionam juntas:

  • Conexões de cabo diretas entre chips — cada LPU está conectado a 96 outros a 112 Gbps, fornecendo 640 TB/seg de largura de banda por rack sem comutadores
  • O compilador planeja todas as transferências de dados antecipadamente — em vez de decidir em tempo de execução quando e para onde enviar dados, o compilador calcula antecipadamente cada bit de informação através da rede
  • Sincronização de milhares de chips independentes — o sistema alinha os relógios dos aceleradores LPU para que a rede funcione com latência conhecida e previsível

Aceleração Híbrida: NVIDIA + Groq

A plataforma usa divisão de trabalho entre GPU e aceleradores especializados. O Vera Rubin NVL72 processa camadas de atenção (elas adoram alta largura de banda), enquanto o Groq 3 LPX assume as camadas FFN (elas exigem baixa latência na geração sequencial). O cache KV é sincronizado entre eles um token de cada vez. Parece complicado, mas como resultado, o sistema funciona sem compromissos entre velocidade e qualidade.

O que foi conseguido

  • 400 tokens por segundo em modelos MoE de 1 trilhão de parâmetros com contexto de 400K
  • 35x mais largura de banda por watt do que o GB200 NVL72
  • Latência previsível mesmo com vários agentes operando simultaneamente

O que isso significa

Para desenvolvedores de agentes de IA, isso significa que de agora em diante, latência e escalabilidade não são inimigos. Vera Rubin permite deplorar modelos grandes (um trilhão de parâmetros) e executar agentes complexos sem compromisso na velocidade de resposta. Na prática, isso significa que assistentes pessoais, automatizadores e agentes de trabalho poderão funcionar rapidamente mesmo com contexto longo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…