NVIDIA Developer Blog→ original

NVIDIA Vera Rubin : comment les développeurs pourront mettre à l'échelle l'IA d'agent sans latence

NVIDIA a lancé Vera Rubin, une plateforme pour l'IA d'agent haute vitesse. Elle combine le GPU Vera Rubin et l'accélérateur Groq 3 LPX. Sur les modèles avec…

Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News
NVIDIA Vera Rubin : comment les développeurs pourront mettre à l'échelle l'IA d'agent sans latence
Source : NVIDIA Developer Blog. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA a présenté la plateforme Vera Rubin, qui résout le principal problème de la mise à l'échelle de l'IA d'agent : les latences imprévisibles dans les sessions multi-étapes.

Pourquoi l'IA d'agent est plus difficile à mettre à l'échelle

La mise à l'échelle ordinaire des modèles fonctionne pour le traitement par lot : vous envoyez plusieurs textes et obtenez plusieurs réponses. Mais l'IA d'agent fonctionne différemment.

L'agent prend une décision, effectue une action, examine le résultat, puis prend la décision suivante. C'est des centaines de requêtes au modèle au cours d'une seule session, chacune avec une petite taille de lot et une exigence très stricte de vitesse.

Comme la trajectoire de l'agent est imprévisible à l'avance (on ne sait pas quelle action l'agent choisira), il est difficile de compiler et d'optimiser le traitement. Les latences s'accumulent, et le contexte de 400K tokens devient un goulot d'étranglement.

La solution à trois niveaux de Vera Rubin

Au lieu d'une approche universelle, NVIDIA a intégré trois technologies dans la plateforme, fonctionnant ensemble :

  • Connexions de câbles directs entre les puces — chaque LPU est connecté à 96 autres à 112 Gbit/s, fournissant 640 TB/s de bande passante par baie sans commutateurs
  • Le compilateur planifie tous les transferts de données à l'avance — au lieu de décider lors de l'exécution quand et où envoyer les données, le compilateur calcule à l'avance chaque bit d'information à travers le réseau
  • Synchronisation de milliers de puces indépendantes — le système aligne les horloges des accélérateurs LPU pour que le réseau fonctionne avec une latence connue et prévisible

Accélération hybride : NVIDIA + Groq

La plateforme utilise une division du travail entre le GPU et les accélérateurs spécialisés. Vera Rubin NVL72 traite les couches d'attention (elles aiment la haute bande passante), tandis que Groq 3 LPX prend en charge les couches FFN (elles nécessitent une faible latence lors de la génération séquentielle). Le cache KV est synchronisé entre eux pour chaque token.

Cela semble compliqué, mais en résultat, le système fonctionne sans compromettre la vitesse et la qualité.

Ce qui a été réalisé

  • 400 tokens par seconde sur les modèles MoE avec un trillion de paramètres avec un contexte de 400K
  • 35 fois plus de bande passante par watt que le GB200 NVL72
  • Latence prévisible même lors de l'exécution simultanée de plusieurs agents

Ce que cela signifie

Pour les développeurs d'agents IA, cela signifie que désormais la latence et la scalabilité ne sont pas des ennemis. Vera Rubin vous permet de déployer de grands modèles (un trillion de paramètres) et d'exécuter des agents complexes sans compromettre la vitesse de réponse.

En pratique, cela signifie que les assistants personnels, les automatiseurs et les agents de travail pourront fonctionner rapidement même avec un contexte long.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…