FlashAttention-3 double la vitesse des transformers avec 75 % d'utilisation du GPU
Together AI a présenté FlashAttention-3, un nouvel algorithme pour accélérer les transformers dans les grands modèles de langage. Il fonctionne deux fois plus v

◐ Écouter l'article
Together AI a présenté FlashAttention-3, un nouvel algorithme pour accélérer les transformers dans les grands modèles de langage. Il fonctionne deux fois plus vite que FlashAttention-2. L'utilisation du GPU H100 atteint désormais 75 %, contre 35 % auparavant. L'algorithme prend en charge des calculs FP8 à faible précision tout en préservant la précision des résultats. Cela permet aux LLM de traiter plus efficacement de longues séquences de texte sans ralentir les calculs et réduit les coûts.