OpenAI a présenté MRC — un protocole réseau pour des clusters d'entraînement AI de 100 000 GPU
Via l'Open Compute Project, OpenAI a publié la spécification de MRC, un nouveau protocole réseau pour l'entraînement de grands modèles. Il répartit le trafic d'

◐ Слушать статью
Via l'Open Compute Project, OpenAI a publié la spécification de MRC, un nouveau protocole réseau pour l'entraînement de grands modèles. Il répartit le trafic d'une même communication sur des centaines de chemins, contourne plus vite les pannes et simplifie l'architecture réseau. Selon l'entreprise, MRC fonctionne déjà dans les plus grands clusters avec NVIDIA GB200 et permet d'encaisser des défaillances de liens, voire des redémarrages de commutateurs, sans interrompre l'entraînement.