Nvidia présente Groq 3 : l’entreprise mise sur des puces dédiées à l’inférence AI
Nvidia a dévoilé Groq 3, sa première puce conçue spécifiquement pour l’inférence AI. Elle ne concurrence pas Rubin GPU sur la puissance globale, mais répond…
Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Nvidia a présenté Groq 3 — le premier chip de l'entreprise conçu spécifiquement pour l'inférence IA plutôt que l'entraînement de modèles. C'est un signal important : le marché se déplace d'une course aux modèles toujours plus grands vers une course pour savoir à quelle vitesse et à quel coût ces modèles peuvent répondre aux utilisateurs.
Pourquoi Nvidia change de cap
À la conférence GTC, le PDG de Nvidia a annoncé non seulement la gamme Vera Rubin, mais aussi une classe distincte de processeurs pour l'inférence de modèles. Le Groq 3 LPU est construit sur une technologie sous licence de la startup Groq, dont Nvidia a obtenu une licence à la fin de l'année dernière. Le fait qu'environ deux ans et demi se soient écoulés entre le licensing et l'annonce du produit montre à quelle vitesse la demande d'inférence dans les centres de données augmente.
"Enfin l'IA est capable de faire du travail utile, et le point
d'inflexion de l'inférence est déjà arrivé."
L'entraînement et l'inférence résolvent des problèmes différents, ils nécessitent donc des matériels différents. Pendant l'entraînement, le système exécute des quantités énormes de données pendant des semaines et met à jour les poids du modèle. Pendant l'inférence, tout se passe au moment d'une requête de l'utilisateur, et pour les modèles de raisonnement, une session peut inclure plusieurs passages internes avant qu'un humain voit la réponse. Ici, les facteurs critiques ne sont pas les FLOPS maximaux, mais la latence, un flux de données stable et un temps de génération de token prévisible.
Comment fonctionne Groq 3
L'approche de Groq diffère du schéma GPU familier. Au lieu de s'appuyer sur une mémoire HBM séparée à haut débit à côté du processeur graphique, le chip utilise de la SRAM intégrée directement dans le bloc de calcul. Cela simplifie le mouvement des données : elles circulent à travers le processeur linéairement, sans allers-retours inutiles vers l'extérieur. Grâce à cela, l'architecture sacrifie l'universalité mais gagne là où une réponse plus rapide est nécessaire. Pour l'inférence, où le modèle génère les tokens séquentiellement plutôt que de calculer tout d'un seul coup, un tel design est particulièrement utile.
La différence est également notable dans les spécifications. GPU Rubin reste une machine pour les calculs lourds et les grands modèles, tandis que Groq 3 a été conçu pour un objectif différent — une latence minimale au stade du decode, lorsque la réponse est déjà en cours d'assemblage token par token. En termes de calculs généraux et de capacité mémoire, le LPU est notablement plus modeste, mais gagne en débit mémoire et convient mieux à l'inférence finale. Par conséquent, Nvidia ne remplace pas le GPU par une nouvelle classe de chip, mais le complète avec un accélérateur spécialisé.
- GPU Rubin dispose de 288 GB de HBM, Groq 3 dispose d'environ 500 MB de SRAM intégrée
- Rubin délivre jusqu'à 50 pétaflops en calculs 4 bits, Groq 3 — 1,2 pétaflops en 8 bits
- En débit mémoire, Groq 3 atteint 150 TB/s contre 22 TB/s pour Rubin
- L'objectif de Groq 3 — pas l'universalité, mais la génération rapide de tokens avec faible latence
Le marché se tourne vers l'inférence
Au cours des deux dernières années, il y a eu une véritable explosion de startups autour des chips d'inférence. D-Matrix mise sur le calcul numérique en mémoire, Etched — sur les ASIC pour transformers, RainAI — sur les circuits neuromorphiques, EnCharge — sur le calcul analogique en mémoire, FuriosaAI — sur une architecture pour opérations tensoriales. Avec son annonce, Nvidia n'a pas simplement ajouté un autre produit, mais a effectivement confirmé : la niche s'est avérée trop grande pour être ignorée au sein de l'empire GPU.
En même temps, la mise est placée non seulement sur un chip séparé, mais sur la division de l'inférence en parties. AWS a récemment montré un système avec Trainium et Cerebras CS-3, où prefill et decode sont effectués par différents types de matériel. Nvidia va dans la même direction : le nouveau module Groq 3 LPX comprendra huit LPUs et le système Vera Rubin.
Prefill et la partie plus lourde du decode resteront sur Rubin, tandis que l'étape finale de l'inférence — sur Groq 3. Un tel hybride permet d'utiliser les points forts de chaque processeur au lieu d'un compromis.
Ce que cela signifie
La principale nouvelle n'est pas que Nvidia a lancé un autre accélérateur, mais que le plus grand acteur du marché a reconnu publiquement l'inférence comme une classe distincte de calcul. Pour les produits d'IA, c'est une bonne nouvelle : si ces architectures passent vraiment à l'échelle en production, les réponses des modèles seront plus rapides et l'économie de l'utilisation massive — plus prévisible. Le prochain stade de la concurrence en IA ne sera pas seulement une question de qualité de modèles, mais de coût d'un million de réponses utiles.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.