OpenAI présente le protocole MRC pour des réseaux de superordinateurs avec des millions de GPU
OpenAI, avec AMD, Broadcom, Intel, Microsoft et NVIDIA, a développé le protocole MRC pour les réseaux de superordinateurs d'AI. Il répartit les paquets sur…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
OpenAI, en collaboration avec AMD, Broadcom, Intel, Microsoft et NVIDIA, a présenté le MRC (Multipath Reliable Connection) — un nouveau protocole réseau ouvert pour les grands clusters d'AI. Le protocole résout un problème clé : comment construire un superordinateur avec des centaines de milliers de GPUs lorsque la fiabilité du réseau devient un goulot d'étranglement.
Comment Fonctionne le MRC
Le MRC distribue les paquets de données sur des centaines de chemins réseau simultanément. Cela signifie que si un chemin échoue, les données voyagent via des routes alternatives sans perdre de vitesse. La récupération après défaillance se produit en microsecondes — si rapide que l'entraînement du réseau de neurones remarque à peine les interruptions.
Les protocoles réseau traditionnels sélectionnent un chemin principal et basculent vers une sauvegarde uniquement si le principal échoue. Le MRC fonctionne selon un principe fondamentalement différent : il surveille des centaines de chemins potentiels en temps réel et distribue dynamiquement la charge entre les canaux sains. C'est comme la différence entre une seule route avec une déviation et un réseau de ruelles où les voitures peuvent emprunter n'importe quel itinéraire libre.
Avantages Pratiques
Le principal succès du MRC est de simplifier l'architecture des superordinateurs. Auparavant, les clusters avec 100 000+ GPUs nécessitaient une hiérarchie à trois niveaux de commutateurs Ethernet. Coûteux, complexe à assembler et consomme beaucoup d'énergie pour le refroidissement. Le MRC permet d'avoir seulement deux niveaux, ce qui simplifie radicalement la conception et réduit les coûts d'équipement.
- Moins d'équipements réseau — assemblage et maintenance simplifiés
- Latence réseau réduite grâce à des chemins plus directs entre les GPUs
- Réduction de la consommation d'énergie pour le refroidissement des commutateurs
- Meilleure scalabilité — l'architecture fonctionne jusqu'à des millions de GPUs
Norme Ouverte pour l'Écosystème
Le MRC n'est pas une solution fermée d'une seule entreprise. OpenAI a choisi une approche ouverte et a impliqué les principaux fabricants d'équipements réseau : AMD, Broadcom, Intel, Microsoft, NVIDIA. Cela signifie que d'autres entreprises, fournisseurs de cloud et centres de recherche pourront implémenter le MRC dans leurs superordinateurs. L'ouverture de la norme est importante précisément parce qu'à ces échelles, même de petites améliorations en fiabilité et efficacité du réseau affectent le coût de l'entraînement des modèles et la vitesse de développement dans toute l'industrie de l'AI.
Ce Que Cela Signifie
Le MRC est une réponse au défi de l'échelle. À mesure que les modèles d'AI se développent, les exigences en matière d'infrastructure informatique augmentent. L'architecture réseau qui fonctionne pour un cluster de 10 000 GPUs peut devenir un goulot d'étranglement à 500 000 GPUs. Le MRC permet de construire des superordinateurs encore plus grands sans une refonte radicale de l'architecture. Pour l'industrie, cela signifie un entraînement de modèles moins coûteux et un déploiement plus rapide des innovations.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.