NVIDIA Developer Blog→ original

NVIDIA TensorRT met désormais à l’échelle l’inférence d’AI générative sur plusieurs GPU

NVIDIA a mis à jour TensorRT : le moteur prend désormais en charge l’inférence sur plusieurs GPU à la fois. Les optimisations clés — fusion de kernels…

Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News
NVIDIA TensorRT met désormais à l’échelle l’inférence d’AI générative sur plusieurs GPU
Source : NVIDIA Developer Blog. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA a mis à jour TensorRT, en ajoutant le support natif de l'inférence sur plusieurs GPUs simultanément — les grands modèles génératifs peuvent maintenant s'exécuter en production sans sharding manuel et sans perdre les optimisations clés du moteur.

Pourquoi une seule GPU n'est plus suffisante

Les modèles génératifs modernes croissent plus vite que la capacité de mémoire GPU ne s'expande. Les réseaux de diffusion pour la génération vidéo, les LLMs multimodaux avec contexte étendu et les pipelines complexes pour le contenu médias ont depuis longtemps dépassé 80 GB — la limite supérieure du H100 phare. Les développeurs de systèmes d'inférence faisaient face à un choix drastique : soit diviser manuellement le graphe computationnel et perdre les optimisations TensorRT, soit basculer vers des frameworks tiers avec un throughput inférieur.

TensorRT est le standard de facto pour le déploiement en production sur du matériel NVIDIA. Le moteur optimise les graphes computationnels au niveau du kernel : il fusionne les opérations, planifie l'utilisation de la mémoire, applique la quantification — et ce faisant, fournit la latence la plus faible et le throughput le plus élevé parmi les options disponibles. Le problème était que toutes ces optimisations fonctionnaient auparavant uniquement dans une seule GPU.

Ce que l'inférence multi-device fournit

La nouvelle capacité permet à TensorRT de distribuer automatiquement un modèle sur plusieurs GPUs tout en préservant tout l'arsenal des optimisations :

  • Kernel fusion — fusion des opérations pour minimiser la surcharge lors du transfert de données entre appareils
  • Memory planning — gestion intelligente du VRAM entre GPUs sans copie excessive de tenseurs
  • Quantification INT8/FP8 — appliquée au graphe computationnel entier dans son ensemble, pas seulement à des parties individuelles
  • Tensor parallelism — distribution automatique des poids du modèle entre appareils sans modifications manuelles du code
  • Pipeline parallelism — différentes couches du réseau s'exécutent en parallèle sur différentes cartes, augmentant le throughput global

Auparavant, obtenir des résultats similaires nécessitait une combinaison complexe de TensorRT avec des outils externes — TensorRT-LLM ou Triton Inference Server — et plusieurs semaines de tuning d'ingénierie. Maintenant, le support multi-device est intégré dans le moteur lui-même.

Qui en bénéficie aujourd'hui

Les équipes construisant des pipelines d'inférence pour la génération de contenu médias bénéficieront le plus de cette nouvelle capacité : systèmes text-to-video, adaptation de contenu en temps réel, avatars interactifs, assistants multimodaux. Toutes ces tâches nécessitent à la fois des modèles volumineux (c'est-à-dire beaucoup de mémoire) et une latence minimale (c'est-à-dire aucun compromis sur l'optimisation).

La nouvelle fonctionnalité change également l'économie de l'inférence dans le cloud. Au lieu de traiter manuellement le sharding des poids sur un cluster de GPUs et de maintenir une logique de synchronisation personnalisée, les équipes peuvent utiliser l'API standard de TensorRT — et obtenir la même performance avec des coûts de développement et de maintenance réduits.

Particulièrement remarquable est le segment de marché intermédiaire : les entreprises ayant deux à quatre GPUs mais aucune équipe dédiée à l'infrastructure ML. Pour elles, l'élimination de la barrière à l'entrée pour l'inférence multi-device représente le plus grand changement pratique.

Ce que cela signifie

La mise à l'échelle de l'inférence IA sur plusieurs appareils passe de « une tâche pour les spécialistes étroits » à « une fonctionnalité intégrée du moteur ». Quand TensorRT prend le contrôle de la distribution, la distance entre un modèle entraîné et un service de production scalable se réduit significativement — et cela impacte directement les produits IA que les équipes de taille moyenne peuvent se permettre de lancer.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…