Together AI atteint un entraînement 90 % plus rapide sur NVIDIA Blackwell

Q: Источник материала?

Оригинальная публикация на Together AI Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-21. Время чтения: 3 мин.

Together AI a présenté des résultats sur NVIDIA Blackwell : l’entraînement de Llama 70B a été 90 % plus rapide que sur H100. 15 264 tokens/s contre 8 080, grâce

Rédaction de Hamidun News

Veille IA · Together AI Blog

2026-05-21· 3 min

Together AI atteint un entraînement 90 % plus rapide sur NVIDIA Blackwell — Source : Together AI Blog. Collage: Hamidun News.

◐ Écouter l'article

Together AI a annoncé un accès immédiat aux clusters de GPU accélérés par NVIDIA Blackwell et a présenté sa propre pile d'optimisation, spécialement adaptée à la nouvelle architecture matérielle des réseaux de neurones.

Résultats : 90% d'accélération par rapport à H100

En testant le modèle Llama avec 70 milliards de paramètres, l'équipe de Together AI a atteint 15 264 tokens par seconde sur un seul GPU. Cela fait presque doubler le résultat de la génération précédente NVIDIA HGX H100, qui en configuration optimisée traitait 8 080 tokens par seconde.

Les résultats ont été obtenus grâce à une version optimisée de TorchTitan combinée à Together Kernel Collection — la collection propre de noyaux optimisés de l'entreprise. Pour le contexte : il s'agit de la précision BF16 (Brain Float 16 — un compromis entre vitesse et précision, qui est maintenant la norme pour l'entraînement de grands modèles). Selon l'entreprise, avec les optimisations supplémentaires encore en cours de développement, la vitesse continuera à augmenter.

Comment cela fonctionne : optimisation au niveau de l'architecture

L'accélération a été rendue possible grâce à une optimisation profonde adaptée à l'architecture GPU spécifique. Together AI a développé une série de composants qui exploitent pleinement les capacités de NVIDIA Blackwell :

Noyaux FP8 personnalisés fonctionnant avec les Tensor Cores NVIDIA de 5e génération (blocs de calcul haute performance)
Noyaux d'attention fonctionnant 1,8 fois plus rapide que FlashAttention-3 (norme actuelle pour le mécanisme d'attention optimisé)
Intégration avec la bibliothèque ouverte ThunderKittens pour l'utilisation complète de la mémoire dédiée sur la puce
Algorithmes d'entraînement distribué adaptés à la topologie de réseau Quantum-2 InfiniBand

Tri Dao, scientifique en chef chez Together AI et créateur de FlashAttention, a noté : « Nous optimisons chaque niveau de la pile IA pour exploiter pleinement les avancées de l'architecture GPU. Nous aimons particulièrement les nouveaux Tensor Cores et le format microscaling pour l'accélération de l'inférence. La combinaison de Together Kernel Collection avec NVIDIA Blackwell redéfinit les normes de l'entraînement et de l'inférence efficace à l'échelle. »

Programme de test et mise à l'échelle

Dans le cadre d'un programme de lancement exclusif, Together AI invite huit entreprises d'IA pionnières à un accès direct aux nœuds HGX B200 dédiés et à l'opportunité de collaborer avec les ingénieurs de NVIDIA et les chercheurs de Together AI. L'objectif est d'accélérer conjointement les charges de travail et de trouver d'autres optimisations.

En parallèle, l'entreprise déploie des dizaines de milliers de serveurs HGX B200 et des solutions complètes GB200 NVL72 avec des réseaux NVIDIA Quantum-2 InfiniBand. Cela inclut le cluster annoncé précédemment contenant 36 000+ GPU pour l'entraînement de modèles de nouvelle génération et d'agents.

Ce que cela signifie

Pour les entreprises d'IA, le résultat est pratique : l'entraînement de grands modèles deviendra moins cher et plus rapide. Avec un gain de vitesse de 90%, les modèles qui nécessitaient auparavant des semaines s'entraînent maintenant en jours. Cela réduit considérablement les dépenses en capital pour le calcul et accélère le cycle d'expérimentation avec de nouvelles architectures.

Pour le marché dans son ensemble, c'est un signal : l'ère des services GPU génériques disparaît. Les entreprises d'IA qui écrivent leurs propres noyaux optimisés pour des architectures spécifiques (comme Together AI avec ThunderKittens) gagnent un avantage concurrentiel en vitesse et en coût. Et cela affecte directement le prix de l'entraînement et, en fin de compte, le prix des services d'IA pour les utilisateurs finaux.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com