FlashAttention-3 acelerará transformers duas vezes com 75% de utilização de GPU
Together AI apresentou FlashAttention-3 — um novo algoritmo para acelerar transformers em grandes modelos de linguagem. Funciona duas vezes mais rápido que Flas
Processado por IA de Together AI Blog; editado por Hamidun News
Together AI, NVIDIA e Meta lançaram FlashAttention-3 — um algoritmo aprimorado para acelerar atenção em transformers. A nova versão utiliza 75% da potência da GPU moderna em vez dos anteriores 35% e funciona de 1,5 a 2 vezes mais rápido nos aceleradores NVIDIA H100. Isto é crítico: enquanto a computação em nuvem fica mais cara e os LLMs exigem cada vez mais recursos, cada percentual de eficiência agora conta em dinheiro.
Por que foi um gargalo
Atenção (attention) — o coração dos transformers. Mas é a parte mais cara dos cálculos. Ao processar um texto longo, ela requer uma quantidade quadrática de memória: duplique o comprimento do contexto — e a memória necessária aumenta quatro vezes. FlashAttention resolveu esse problema em 2022, reorganizando os cálculos para ler/escrever na memória da GPU de forma mais eficiente. Isso deu uma aceleração de 2-4x e permitiu que os LLMs expandissem o contexto de 4K tokens para 128K, e recentemente para um milhão. Sem FlashAttention, tais contextos longos eram simplesmente impraticáveis. Mas FlashAttention-2 parou em 35% de eficiência H100. As novas GPUs série Hopper trouxeram núcleos assíncronos (WGMMA) e transferência de dados assíncrona (TMA). FlashAttention-3 finalmente os utiliza.
Como funciona a aceleração
FlashAttention-3 aplica três melhorias principais. Primeiro, assincronia. Os núcleos de tensor e os sistemas de transferência de dados funcionam simultaneamente, sem esperar um pelo outro. Essa interseção de computação e memória é a principal aceleração. Segundo, intercalação de operações. Em vez de primeiro calcular todos os produtos de matrizes em blocos, depois softmax, o algoritmo os alterna. Isso reduz a latência e melhora a utilização do cache. Terceiro, baixa precisão de cálculo. FP8 — números de oito bits em vez de FP16 — requer metade da memória e permite fazer duas vezes mais operações por segundo. FlashAttention-3 com FP8 atinge cerca de 1,2 PFLOPS (petaflops).
Não perde qualidade com FP8?
O principal risco da baixa precisão é que os erros se acumulam e prejudicam os resultados. Mas os autores mostram que FlashAttention-3 com FP8 tem um erro apenas 2,6 vezes maior do que o FP8 attention básico. E comparado ao FP16, o erro é quase imperceptível. Isto é importante para contextos longos. Quando um LLM processa um milhão de tokens, os erros em uma camada de atenção se acumulam através de 70+ camadas do modelo. FlashAttention-3 mantém esses erros sob controle, permitindo usar FP8 sem perda de qualidade.
Quem terá ganho
FlashAttention-3 trará ganhos em diferentes cenários:
- Treinamento de modelos grandes — a aceleração oferece economia de meses de tempo computacional. Para Meta, OpenAI, isso significa a oportunidade de treinar mais variantes com o mesmo orçamento. As contas em nuvem caem 30-50%.
- Inferência rápida em produção — em um único H100 é possível servir mais usuários simultaneamente, o que torna as APIs comerciais mais econômicas
- Contextos longos — sistemas RAG, análise de documentos grandes, busca em arquivos agora funcionam sem desaceleração mesmo com um milhão de tokens
- Computação móvel e edge — FP8 e redução de memória permitem executar modelos em hardware fraco
O algoritmo já está integrado nas principais bibliotecas ML PyTorch, JAX e TensorFlow. O código foi publicado no GitHub, e os desenvolvedores começaram a implementar.
O que isso significa para a indústria
FlashAttention-3 chega no momento certo. GPUs em nuvem estão ficando mais caras, a demanda por LLMs está crescendo e os contextos estão se tornando mais longos. Algoritmos que fazem o hardware funcionar em 75% de sua potência em vez de 35% não são apenas úteis — são críticos para a economia. Isso reduz o custo do treinamento de modelos, acelera a implantação em produção e abre possibilidades para aplicações que antes eram simplesmente não rentáveis. Já existem empresas que se apressaram em integrar FlashAttention-3 em seus sistemas e obtiveram economia notável em suas contas. Para pesquisadores, também é uma boa notícia: podem experimentar mais rápido, testar mais variantes de arquiteturas e tamanhos de modelos.
*Meta é reconhecida como uma organização extremista e proibida na Federação Russa.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.