MarkTechPost→ original

UC Berkeley a créé mKernel : une bibliothèque unifiée pour la synchronisation des GPU en clusters

L'équipe UCCL d'UC Berkeley a lancé mKernel — une bibliothèque CUDA pour la synchronisation des GPU dans les clusters massifs. Au lieu de trois outils séparés,

UC Berkeley a créé mKernel : une bibliothèque unifiée pour la synchronisation des GPU en clusters
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

L'équipe UCCL d'UC Berkeley a lancé mKernel — une bibliothèque CUDA qui révolutionne la synchronisation des GPU dans les grands clusters. La bibliothèque combine la communication locale entre GPUs, la synchronisation entre serveurs et le calcul dans un unique kernel persistant, évitant les changements de contexte constants.

Goulot d'étranglement dans les Clusters à Grande Échelle

Dans les grands centres de données, la synchronisation entre GPUs est l'un des principaux goulots d'étranglement en bande passante. Lorsque les ingénieurs travaillent sur l'entraînement distribué de grands modèles, ils font face à un problème qui a traditionnellement été résolu très inefficacement. L'ancienne approche était par couches : les ingénieurs utilisaient trois outils et bibliothèques séparés.

Le premier — pour la communication rapide au sein d'un serveur unique (NVLink, qui fonctionne via des câbles haute vitesse entre les GPUs). Le deuxième — pour la synchronisation entre différents serveurs sur le réseau (RDMA, qui utilise des adaptateurs réseau spécialisés). Le troisième — pour les calculs eux-mêmes.

Chaque transition entre ces trois systèmes gèle l'ensemble du pipeline GPU : elle est forcée de s'arrêter, de changer de contexte, de décharger une partie de la mémoire, de charger de nouvelles données, et seulement alors de continuer à fonctionner. Sur les clusters avec des milliers de GPUs, ces délais de microsecondes s'accumulent en minutes de performances perdues.

Comment mKernel Résout le Problème

mKernel change la philosophie radicalement. Au lieu de trois systèmes séparés, toutes les opérations — communication locale, synchronisation réseau et calcul — fonctionnent dans un unique kernel persistant. C'est un programme qui vit constamment en mémoire GPU et n'est jamais déchargé sur le CPU. L'architecture combine trois composantes :

  • NVLink pour la communication entre les GPUs sur un serveur — fournit des vitesses 10-20x supérieures au PCIe, grâce aux canaux haute vitesse directs entre les GPUs
  • RDMA via des adaptateurs réseau pour la synchronisation entre serveurs — évite la surcharge du CPU et les délais du système d'exploitation lors du transfert de données entre machines
  • Calculs denses intégrés directement dans le kernel — le GPU fonctionne sur les données locales sans commutations, se synchronise avec ses voisins et passe immédiatement à la tâche suivante

Cela signifie que le GPU peut faire la transition sans problème de la communication locale par NVLink à la synchronisation globale par RDMA à ses propres calculs — tout en une seule pièce de code, sans arrêts.

Exemple Concret : Comment Cela Fonctionne en Pratique

Dans l'entraînement distribué, un GPU ne peut pas avancer tant que les autres GPUs sur différents serveurs n'ont pas terminé leurs calculs et synchronisé les gradients. Avec l'ancienne approche, le GPU attend simplement avec un pipeline complètement vide. Avec mKernel le processus est différent : le GPU continue les calculs locaux sur les données déjà chargées, se synchronise simultanément avec les voisins via NVLink et RDMA, et passe immédiatement à la prochaine vague d'entraînement sans interruptions. C'est comme une chaîne de montage d'usine automobile qui ne s'arrête pas tandis qu'une pièce se déplace vers la prochaine station.

Pourquoi C'est Critique pour les Data Centers

L'entraînement distribué de grands modèles est l'une des tâches de calcul les plus complexes du développement moderne de l'IA. Lorsque vous utilisez simultanément 1000 GPUs (et les grandes entreprises en utilisent encore plus), même un petit ralentissement de synchronisation peut gaspiller 20-30% de toutes les ressources inutilement. mKernel promet d'éliminer complètement ce surcoût. Lors des tests initiaux, les chercheurs voient déjà des résultats : sur les clusters multi-nœuds, la bibliothèque montre une accélération de synchronisation 2-3x sur les opérations typiques. C'est particulièrement critique pour le mécanisme d'attention dans les transformers, où la synchronisation des gradients entre les GPUs est la partie la plus coûteuse de tout le travail.

Ce Que Cela Signifie

mKernel est un signal que la programmation GPU entre dans une ère de systèmes intégrés. Auparavant, les ingénieurs écrivaient du code par couches : d'abord les calculs, puis la synchronisation, puis la transmission. Maintenant, la limite entre elles devient floue. Cela signifie des calculs plus rapides dans les data centers, cela signifie un entraînement plus accessible et plus rapide des grands modèles, et surtout — la prochaine génération de systèmes distribués sera conçue d'une manière complètement nouvelle.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Qu'en pensez-vous ?
Chargement des commentaires…