Together AI Blog→ original

FlashAttention-3 dobra a velocidade dos transformers com 75% de utilização de GPU

A Together AI apresentou o FlashAttention-3, um novo algoritmo para acelerar transformers em grandes modelos de linguagem. Ele é duas vezes mais rápido que o Fl

FlashAttention-3 dobra a velocidade dos transformers com 75% de utilização de GPU
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Together AI apresentou o FlashAttention-3, um novo algoritmo para acelerar transformers em grandes modelos de linguagem. Ele é duas vezes mais rápido que o FlashAttention-2. A utilização da GPU H100 agora chega a 75%, ante 35% anteriormente. O algoritmo suporta computação FP8 de baixa precisão sem perder a precisão dos resultados. Isso permite que LLMs processem sequências longas de texto com mais eficiência, sem desacelerar a computação, e reduz custos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…