NVIDIA à la GTC 2026 change son focus des puces vers les usines de tokens et l'ère d'Agent-as-a-Service
NVIDIA à la GTC 2026 a démontré un changement passant de la compétition sur les GPU individuels vers l'économie d'inférence. Thèmes clés: 20 ans de CUDA…
Traité par IA depuis Habr AI ; édité par Hamidun News
NVIDIA à GTC 2026 a démontré que la prochaine phase du marché de l'IA sera construite non autour de GPU individuels, mais autour d'usines d'inférence, où les jetons et les actions des agents deviennent le produit principal. La thèse centrale de la présentation : l'entreprise ne vend plus simplement des accélérateurs, mais une infrastructure complète pour la production à l'échelle industrielle de résultats d'IA — des bibliothèques CUDA aux racks de serveurs, aux réseaux et aux couches logicielles d'entreprise.
La trajectoire de vingt ans de CUDA a servi de point de départ à ce pivot. C'est l'engagement envers une plateforme logicielle qui a autrefois transformé les cartes graphiques NVIDIA d'équipement de niche en outil informatique universel pour l'apprentissage automatique. À GTC, ce parcours a été présenté comme une évolution séquentielle : d'abord, un écosystème de bibliothèques et de frameworks ; ensuite, les systèmes DGX ; et maintenant, des blocs modulaires prêts pour les grands clusters d'IA.
La logique est simple : même le chip le plus puissant signifie peu sans logiciel, optimisations et capacité à déployer rapidement des scénarios pratiques en production. Cela conduit à la deuxième thèse de NVIDIA : le marché passe de SaaS à Agent-as-a-Service. Alors que les entreprises payaient autrefois pour l'accès à un outil et les employés extraaient les résultats, maintenant les entreprises paient pour les actions d'IA exécutées.
Un agent ne doit pas simplement générer du texte ; il doit clôturer la tâche : traiter une demande, mener une analyse, préparer un document, prendre des décisions dans des règles définies. Par conséquent, la mesure de l'efficacité n'est plus la performance abstraite en FLOPs, mais le coût d'un jeton utile et le prix final d'une action significative.
Dans cette logique, l'inférence devient une économie distincte, et les centres de données deviennent des installations de production pour générer du travail intellectuel. C'est ici que NVIDIA promeut le concept d'Usine de Jetons. L'entreprise propose de voir les modernes centres de données d'IA non pas comme des lieux de stockage de données, mais comme des usines où l'électricité et l'infrastructure entrent, et où un flux de jetons pour les applications, assistants et agents autonomes sort.
À GTC, une estimation a été partagée selon laquelle en 2027, les dépenses mondiales pour la construction et la modernisation de telles capacités pourraient approcher 1 trillion de dollars. La demande pour ces installations est alimentée non seulement par l'IA d'entreprise, mais aussi par la croissance des modèles ouverts, qui se sont rapprochés de l'état de l'art en qualité et rendent le lancement de services propriétaires plus accessible à un plus large éventail d'entreprises.
Le fondement architectural de cette stratégie est l'architecture Vera Rubin. NVIDIA la décrit non pas comme un autre gain de performance supplémentaire par rapport à la génération précédente, mais comme une tentative de repackager l'ensemble de la pile pour l'inférence. Ce qui compte maintenant, ce n'est pas une seule carte ou même un seul serveur, mais l'ensemble du rack : le calcul, le CPU, la mémoire, le stockage, la mise en réseau, la sécurité et les interconnexions optiques entre les modules.
Cette approche est nécessaire pour augmenter simultanément le débit et la réactivité du système sans exploser les coûts d'électricité. Une attention particulière a été accordée à la modularité : les configurations peuvent être assemblées pour différents types de charge — des réponses rapides de masse au raisonnement coûteux en temps réel. Cela définit également une nouvelle segmentation du marché : des réponses bon marché pour la consommation de masse et une inférence premium pour les scénarios d'agents complexes.
Un autre signal important de GTC : les agents d'IA sont de plus en plus considérés comme faisant partie de l'infrastructure d'entreprise, et non comme une couche expérimentale au-dessus des chatbots. Par conséquent, parallèlement au matériel, NVIDIA promeut des architectures de logiciels de référence pour le déploiement d'agents dans les grandes entreprises. L'idée est que les agents opèrent dans le cadre des politiques de sécurité, n'accèdent qu'aux interfaces autorisées et s'intègrent de manière prévisible au paysage informatique existant de l'entreprise. Pour les entreprises, cela peut être encore plus important que les chips eux-mêmes : sans contrôle, audit et capacité de gestion, aucune autonomie n'atteindra la production.
La conclusion principale de GTC 2026 est que NVIDIA cherche à occuper non seulement le marché des accélérateurs, mais la position d'un fournisseur fondamental de l'économie de l'inférence. Alors que la concurrence portait autrefois sur le nombre de transistors et la domination de l'entraînement des modèles, le centre de gravité se déplace maintenant vers le coût de l'action utile, la résilience du service d'IA et la rapidité du déploiement des systèmes d'agents. Pour le marché, cela signifie une transition des discussions sur « le GPU le plus puissant » à la question de savoir qui peut fournir l'intelligence en tant que service de manière plus bon marché et plus fiable.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.