Together AI Blog→ original

FlashAttention-3 double la vitesse des transformers avec 75 % d'utilisation du GPU

Together AI a présenté FlashAttention-3, un nouvel algorithme pour accélérer les transformers dans les grands modèles de langage. Il fonctionne deux fois plus v

FlashAttention-3 double la vitesse des transformers avec 75 % d'utilisation du GPU
Source : Together AI Blog. Collage: Hamidun News.
◐ Écouter l'article

Together AI a présenté FlashAttention-3, un nouvel algorithme pour accélérer les transformers dans les grands modèles de langage. Il fonctionne deux fois plus vite que FlashAttention-2. L'utilisation du GPU H100 atteint désormais 75 %, contre 35 % auparavant. L'algorithme prend en charge des calculs FP8 à faible précision tout en préservant la précision des résultats. Cela permet aux LLM de traiter plus efficacement de longues séquences de texte sans ralentir les calculs et réduit les coûts.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…