Nvidia présente Vera Rubin : sept puces et une plateforme complète pour les usines d'AI
Nvidia a annoncé Vera Rubin non pas comme un GPU de plus, mais comme une stack complète pour les usines d'AI : Rubin GPU, Vera CPU, NVLink 6, ConnectX-9…
Traité par IA depuis 3DNews AI ; édité par Hamidun News
Nvidia a présenté non pas un seul accélérateur Vera Rubin, mais une plateforme complète pour les usines d'IA : des GPU et CPU aux interfaces réseau, DPU, systèmes de stockage et commutateurs Ethernet. L'entreprise présente cela comme l'étape suivante après Blackwell — une infrastructure où les racks et les clusters sont conçus comme un unique superordinateur pour l'IA agentive.
Plateforme Complète
Au lieu d'annoncer un autre « GPU le plus rapide », Nvidia a présenté une pile complète de sept puces et plusieurs types de racks couvrant différentes étapes du travail avec l'IA : pré-entraînement, post-entraînement, test-time scaling et inférence pour les systèmes agentifs. Au cœur de la plateforme se trouvent le GPU Rubin et le CPU Vera, avec NVLink 6, ConnectX-9 SuperNIC, BlueField-4, Spectrum-6 et les accélérateurs d'inférence Groq 3 LPX construits autour d'eux. Selon la conception de l'entreprise, tout cela doit fonctionner non pas comme une collection de serveurs séparés, mais comme un unique circuit de calcul connecté.
Nvidia souligne spécifiquement un passage des serveurs individuels aux systèmes à l'échelle POD et rack. La logique est simple : les modèles modernes et les agents d'IA sont limités non seulement par les accélérateurs, mais aussi par le réseau, la mémoire, le stockage du cache KV, le refroidissement et la consommation d'énergie. Par conséquent, Vera Rubin se vend non pas comme une puce unique, mais comme une architecture pour une usine d'IA complète qui peut être assemblée à partir de modules prêts à l'emploi adaptés à un type spécifique de charge de travail et de budget.
«
Vera Rubin est un bond générationnel : sept puces révolutionnaires, cinq racks et un unique superordinateur géant. »
Que Contient la Pile
La configuration de base Vera Rubin NVL72 combine 72 GPU Rubin et 36 CPU Vera dans un unique rack. Les composants sont connectés via NVLink 6, tandis que ConnectX-9 et BlueField-4 gèrent la connectivité réseau et le déchargement des tâches d'infrastructure. Nvidia affirme que ce système entraîne de grands modèles de mixture-of-experts en utilisant quatre fois moins de GPU que la plateforme Blackwell, et en inférence offre jusqu'à 10 fois plus de débit par watt avec un coût de token dix fois inférieur. Autour de ce rack, l'entreprise a assemblé plusieurs blocs spécialisés supplémentaires :
- Vera CPU Rack — jusqu'à 256 processeurs Vera pour l'apprentissage par renforcement et les charges de travail agentifs
- Groq 3 LPX Rack — 256 puces LPU pour l'inférence à basse latence et le contexte long
- BlueField-4 STX — couche de stockage et de traitement du cache KV pour les modèles et les agents
- Spectrum-6 SPX — rack Ethernet pour l'échange rapide de données entre nœuds
- Quantum-X800 / Spectrum-X — mise à l'échelle des clusters entre racks
Un accent particulier a été mis sur le rack CPU Vera : il est conçu pour les scénarios où les agents ont besoin non seulement de générer une réponse, mais de vérifier à plusieurs reprises les options d'action dans des environnements externes. Selon Nvidia, Vera offre des résultats 50% plus rapides que les CPU traditionnels et est deux fois plus efficace en énergie. Pour l'inférence de modèles à contexte long, l'entreprise a ajouté Groq 3 LPX : 256 LPU dans un rack, 128 Go de SRAM sur puce, et jusqu'à 640 To/s de débit interne.
Économie et Échelle
La partie la plus importante de l'annonce n'est pas la liste des composants, mais l'économie d'exploitation. Nvidia promet jusqu'à 35 fois plus de débit d'inférence par mégawatt en combinant Vera Rubin avec Groq 3 LPX, et BlueField-4 STX devrait accélérer les opérations de cache KV jusqu'à cinq fois par rapport aux architectures de stockage plus traditionnelles. Pour le réseau Ethernet Spectrum-6, l'entreprise revendique jusqu'à cinq fois d'amélioration en efficacité énergétique optique et une augmentation décuple de la fiabilité lors de l'utilisation de l'optique coempaquetée.
Parallèlement au matériel, Nvidia a introduit la plateforme DSX pour les data centers Vera Rubin. La version DSX Max-Q, selon l'entreprise, permet de déployer jusqu'à 30% d'infrastructure d'IA supplémentaire dans un data center avec le même budget énergétique, tandis que DSX Flex permet d'utiliser le système d'alimentation du data center comme un actif plus flexible. Les expéditions de partenaires de produits basés sur Vera Rubin doivent commencer dans la seconde moitié de 2026.
Les premiers partenaires incluent AWS, Google Cloud, Microsoft Azure, Oracle Cloud, CoreWeave, Lambda, Together AI, ainsi que Dell, HPE, Lenovo et Supermicro.
Ce Que Cela Signifie
Nvidia s'éloigne de plus en plus de la vente d'accélérateurs individuels et s'oriente de plus en plus vers le rôle de fournisseur d'architecture complète pour les usines d'IA. Pour le marché, cela signale que la concurrence ne sera plus uniquement dominée par la performance des GPU, mais aussi par le prix du token, l'efficacité du réseau, la gestion de la mémoire et la rapidité avec laquelle un cluster complet pour l'IA agentive peut être déployé.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.