OpenAI Blog→ original

OpenAI a présenté MRC — un protocole réseau pour des clusters d'entraînement AI de 100 000 GPU

Via l'Open Compute Project, OpenAI a publié la spécification de MRC, un nouveau protocole réseau pour l'entraînement de grands modèles. Il répartit le trafic d'

Traité par IA depuis OpenAI Blog ; édité par Hamidun News
OpenAI a présenté MRC — un protocole réseau pour des clusters d'entraînement AI de 100 000 GPU
Source : OpenAI Blog. Collage: Hamidun News.
◐ Écouter l'article

OpenAI a présenté MRC — un nouveau protocole réseau pour les supercalculateurs utilisés dans l'entraînement de grands modèles d'IA. Selon l'entreprise, il est déjà déployé dans tous ses plus grands clusters sur NVIDIA GB200, notamment l'installation OCI à Abilene et les systèmes Microsoft Fairwater, et aide à maintenir les performances même en cas de défaillance des liaisons réseau et des commutateurs.

Pourquoi MRC était Nécessaire

L'entraînement de modèles frontier dépend non seulement des GPU eux-mêmes, mais aussi du réseau qui les relie. À chaque étape d'entraînement, des millions d'échanges de données se produisent, et si ne serait-ce qu'un paquet ou un flux arrive notablement plus tard que les autres, certains accélérateurs commencent à rester inactifs. Sur des clusters plus petits, ces retards peuvent encore être tolérés, mais sur des systèmes à l'échelle de Stargate, le problème devient systémique : plus il y a de nœuds impliqués, plus la probabilité de congestion, de gigue de latence et de défaillances matérielles augmente.

Pour OpenAI, ce n'est plus un défi d'ingénierie secondaire. L'entreprise note que ChatGPT est utilisé par plus de 900 millions de personnes chaque semaine, ce qui signifie que l'infrastructure informatique devient une couche fondamentale du service. C'est pourquoi l'équipe, travaillant avec AMD, Broadcom, Intel, Microsoft et NVIDIA au cours des deux dernières années, a reconstruit la pile réseau pour offrir non seulement une vitesse élevée, mais aussi un comportement prévisible sous charge et lors de défaillances partielles.

Comment Fonctionne le Réseau

L'idée clé derrière MRC est de ne pas traiter l'interface réseau comme un seul grand tuyau de 800 Gbps. Au lieu de cela, OpenAI la divise en plusieurs canaux plus petits : par exemple, huit lignes de 100 Gbps, chacune allant vers son propre commutateur. Cela crée un réseau multi-plan où le même trafic peut être acheminé par de nombreux chemins indépendants.

Dans une telle configuration, selon les estimations d'OpenAI, un réseau d'environ 131.000 GPU peut être construit avec seulement deux niveaux de commutateurs Ethernet, tandis qu'une conception traditionnelle de 800 Gbps en nécessiterait trois ou quatre. Le protocole lui-même entre alors en jeu, étendant la pile RoCE familière pour les tâches d'entraînement d'IA.

Au lieu d'envoyer tout le trafic par une seule route, MRC « disperse » les paquets d'un seul transfert sur des centaines de chemins simultanément. Les paquets peuvent arriver hors d'ordre, mais c'est acceptable car chaque paquet spécifie déjà son adresse mémoire finale, et le destinataire assemble les données sur place au fur et à mesure de leur arrivée. Cela permet au réseau d'utiliser les canaux disponibles de manière plus uniforme et de gérer beaucoup mieux la congestion locale.

  • Un seul échange est divisé en plusieurs chemins parallèles à travers différents plans réseau
  • Lorsque des signes de congestion sont détectés, le protocole supprime le chemin problématique et le remplace par un autre
  • Lorsqu'un paquet est perdu, MRC suppose rapidement une défaillance et retransmet les données
  • Si un paquet est perdu en raison d'une congestion côté récepteur, le packet trimming aide—en envoyant uniquement l'en-tête pour demander explicitement une retransmission

OpenAI souligne spécifiquement que MRC peut contourner les défaillances réseau à des échelles de microsecondes, alors que les fabrics traditionnels pourraient nécessiter des secondes ou même des dizaines de secondes pour reconfigurer les routes. Ceci est particulièrement critique pour l'entraînement synchrone, où l'ensemble de l'étape de calcul est déterminé non par la moyenne, mais par le transfert le plus lent du cluster. Avec cet équilibre, plusieurs tâches peuvent partager un seul cluster avec un risque moindre d'interférence mutuelle.

Ce qui Change dans l'Exploitation

Un autre changement important est l'abandon du routage dynamique conventionnel en faveur du routage source basé sur SRv6. Dans un réseau typique, les commutateurs recalculent eux-mêmes les routes via des protocoles comme BGP, ce qui ajoute de la complexité et introduit de nouveaux modes de défaillance. Dans MRC, l'expéditeur code directement le chemin du paquet dans l'adresse IPv6, et les commutateurs exécutent simplement cette route séquentiellement en utilisant des tables statiques.

L'idée semble radicale, mais selon OpenAI, elle simplifie le plan de contrôle et élimine le besoin de constamment réparer manuellement la logique réseau. Pour OpenAI, la pratique importe plus que la théorie, et ici l'entreprise dispose de chiffres concrets. Elle rapporte que ses réseaux d'entraînement se composent de millions de liaisons, et dans les déploiements réels, plusieurs brèves interruptions peuvent survenir entre les commutateurs tier-0 et tier-1 chaque minute—sans impact mesurable sur l'entraînement préalable synchrone.

Lors de l'entraînement de l'un de ses récents modèles frontier pour ChatGPT et Codex, les ingénieurs ont dû redémarrer quatre commutateurs tier-1, et cela n'a pas nécessité de coordination avec les équipes qui menaient l'entraînement à ce moment-là. Si une interface réseau à huit ports en perd un, le débit diminue d'au maximum un huitième, mais la tâche elle-même continue à s'exécuter plutôt que de tomber complètement en panne.

Ce Que Cela Signifie

MRC montre que la course aux modèles plus puissants se déplace de plus en plus vers l'infrastructure. OpenAI n'accélère pas seulement l'entraînement de ses clusters, mais contribue également le protocole au Open Compute Project, tentant de transformer sa propre solution d'ingénierie en norme industrielle. Si l'approche est adoptée par d'autres laboratoires et fournisseurs de cloud, les grands clusters d'IA deviendront moins chers, plus simples à exploiter et plus résilients aux défaillances sans ajustement réseau manuel constant.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…