FlashAttention-3 dobra a velocidade dos transformers com 75% de utilização de GPU
A Together AI apresentou o FlashAttention-3, um novo algoritmo para acelerar transformers em grandes modelos de linguagem. Ele é duas vezes mais rápido que o Fl

◐ Ouvir artigo
A Together AI apresentou o FlashAttention-3, um novo algoritmo para acelerar transformers em grandes modelos de linguagem. Ele é duas vezes mais rápido que o FlashAttention-2. A utilização da GPU H100 agora chega a 75%, ante 35% anteriormente. O algoritmo suporta computação FP8 de baixa precisão sem perder a precisão dos resultados. Isso permite que LLMs processem sequências longas de texto com mais eficiência, sem desacelerar a computação, e reduz custos.