Together AI : comment les optimisations des noyaux ferment l'écart entre les modèles et les GPU
L'équipe Together AI a adapté en une semaine les noyaux CUDA pour les nouveaux GPU Blackwell – un travail auquel NVIDIA a consacré un an. Tout cela grâce à Flas
Traité par IA depuis Together AI Blog ; édité par Hamidun News
L'équipe d'optimisation des noyaux de Together AI vient de montrer que l'écart entre la théorie et la pratique en IA n'est pas une fatalité, mais un défi direct pour les ingénieurs. En une semaine, ils ont adapté les noyaux de bas niveau pour les nouveaux GPU Blackwell, accomplissant le travail sur lequel NVIDIA a travaillé une année entière avec des dizaines de spécialistes.
L'histoire d'une révolution
Tout a commencé à un moment inattendu. Mai 2022, le Jour du Mémorial aux États-Unis. Pendant que la Silicon Valley se reposait, Dan Fu, Tri Dao et leurs collègues ont publié l'article FlashAttention.
L'idée principale sonnait provocatrice : l'optimisation de l'attention des transformateurs était loin d'être terminée, contrairement à la croyance répandue. Avant cela, les experts pensaient que les GPU étaient déjà pleinement utilisés. La parcimonie (élagage matriciel) et les méthodes de bas rang ne montraient que 10 % du gain réel.
FlashAttention a pris un chemin différent : au lieu de chercher de la magie mathématique, ils ont simplement compris comment la mémoire se déplaçait réellement dans le GPU. En appliquant les principes des systèmes de gestion de bases de données (localité de la mémoire, hiérarchie du cache) à l'attention, ils ont obtenu une accélération de 2 à 3 fois. Andrej Karpathy, alors Senior Director AI chez Tesla, a envoyé un tweet à 19h00 le lundi.
Le mardi matin, l'article circulait déjà dans tous les canaux de recherche en IA. « Honnêtement, nous ne nous attendions pas à ce que quelqu'un le remarque, » se souvient Dan. Ce moment est devenu le fondement de ce qui est maintenant l'une des équipes de recherche sur les noyaux les plus influentes en IA.
L'écart que personne n'a vu
Voici ce que la plupart des gens manquent dans les discussions sur l'IA : avoir les meilleurs modèles et le meilleur matériel n'est pas suffisant. Le véritable goulot d'étranglement est l'écart entre eux : la couche logicielle qui traduit les opérations mathématiques en instructions pour les GPU. C'est la couche des noyaux.
De nombreuses architectures fondamentales (ResNet, LSTM, RNN) ont été conçues avant l'ère de la mise à l'échelle massive. Alors que les modèles ont grandi jusqu'à des centaines de milliards de paramètres, les GPU ont évolué en parallèle. Les puces modernes sont essentiellement des multiplicateurs matriciels spécialisés, optimisés pour les architectures de transformateurs dominantes.
Un noyau (kernel) est la traduction entre l'abstraction et le silicium. C'est l'instruction du GPU sur la façon de déplacer efficacement les données et d'effectuer les calculs. Un bon noyau déverrouille la puissance complète du matériel.
Un mauvais la laisse inutilisée.
Pour les applications IA-native (produits construits sur l'IA), cet écart est critique :
- On ne peut pas construire une application IA réactive sur une infrastructure fonctionnant en dessous de l'optimum
- Le coût de l'infrastructure s'envole si les noyaux ne sont pas optimaux
- La mise à l'échelle d'une entreprise d'IA reste impossible si l'inférence coûte 2 fois plus cher qu'elle ne devrait
ThunderKittens et Blackwell : une semaine au lieu d'un an
Mars 2025. L'équipe a grandi jusqu'à 15 personnes – un mélange de chercheurs en ML apprenant sur les défis des systèmes et de vétérans des GPU passés à l'IA. Together AI a obtenu l'accès aux nouveaux GPU NVIDIA Blackwell – une génération avec une architecture fondamentalement différente.
Le défi était concret : NVIDIA a passé un an, attirant des dizaines d'ingénieurs, pour développer des noyaux optimisés pour Blackwell. Together AI s'est fixé un objectif : une semaine. La solution a été assemblée à partir de ce qu'ils développaient avec les chercheurs de Stanford – la bibliothèque ThunderKittens.
Au lieu de coder manuellement du code spécifique à chaque nouvelle génération de GPU, ils ont créé un cadre universel qui se met à l'échelle. En 5 jours, ils ont accompli un travail qui prend généralement un an. Ce n'est pas simplement une question de vitesse de développement.
C'est la preuve que leur méthodologie des noyaux s'adapte véritablement et se généralise au nouveau matériel sans recommencer à zéro.
Ce que cela signifie
Le cloud IA-native a besoin d'une infrastructure IA-native, optimisée du silicium vers le haut. L'écart entre les modèles et les GPU ne se ferme pas dans les publications scientifiques et pas aux conférences – il se ferme dans le code, dans les noyaux, dans la façon dont les données se déplacent physiquement dans la mémoire de la puce. L'équipe qui comprend cela et peut le faire rapidement gagne à cette époque.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.