FlashAttention-3 dobra a velocidade dos transformers com 75% de utilização de GPU

Q: Источник материала?

Оригинальная публикация на Together AI Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-21. Время чтения: 3 мин.

A Together AI apresentou o FlashAttention-3, um novo algoritmo para acelerar transformers em grandes modelos de linguagem. Ele é duas vezes mais rápido que o Fl

Redação da Hamidun News

Monitoramento de AI · Together AI Blog

2026-05-21· 2 min

FlashAttention-3 dobra a velocidade dos transformers com 75% de utilização de GPU — Fonte: Together AI Blog. Colagem: Hamidun News.

◐ Ouvir artigo

A Together AI apresentou o FlashAttention-3, um novo algoritmo para acelerar transformers em grandes modelos de linguagem. Ele é duas vezes mais rápido que o FlashAttention-2. A utilização da GPU H100 agora chega a 75%, ante 35% anteriormente. O algoritmo suporta computação FP8 de baixa precisão sem perder a precisão dos resultados. Isso permite que LLMs processem sequências longas de texto com mais eficiência, sem desacelerar a computação, e reduz custos.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com