Together AI Blog→ original

FlashAttention-3 acelerará transformers duas vezes com 75% de utilização de GPU

Together AI apresentou FlashAttention-3 — um novo algoritmo para acelerar transformers em grandes modelos de linguagem. Funciona duas vezes mais rápido que Flas

Processado por IA de Together AI Blog; editado por Hamidun News
FlashAttention-3 acelerará transformers duas vezes com 75% de utilização de GPU
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Together AI, NVIDIA e Meta lançaram FlashAttention-3 — um algoritmo aprimorado para acelerar atenção em transformers. A nova versão utiliza 75% da potência da GPU moderna em vez dos anteriores 35% e funciona de 1,5 a 2 vezes mais rápido nos aceleradores NVIDIA H100. Isto é crítico: enquanto a computação em nuvem fica mais cara e os LLMs exigem cada vez mais recursos, cada percentual de eficiência agora conta em dinheiro.

Por que foi um gargalo

Atenção (attention) — o coração dos transformers. Mas é a parte mais cara dos cálculos. Ao processar um texto longo, ela requer uma quantidade quadrática de memória: duplique o comprimento do contexto — e a memória necessária aumenta quatro vezes. FlashAttention resolveu esse problema em 2022, reorganizando os cálculos para ler/escrever na memória da GPU de forma mais eficiente. Isso deu uma aceleração de 2-4x e permitiu que os LLMs expandissem o contexto de 4K tokens para 128K, e recentemente para um milhão. Sem FlashAttention, tais contextos longos eram simplesmente impraticáveis. Mas FlashAttention-2 parou em 35% de eficiência H100. As novas GPUs série Hopper trouxeram núcleos assíncronos (WGMMA) e transferência de dados assíncrona (TMA). FlashAttention-3 finalmente os utiliza.

Como funciona a aceleração

FlashAttention-3 aplica três melhorias principais. Primeiro, assincronia. Os núcleos de tensor e os sistemas de transferência de dados funcionam simultaneamente, sem esperar um pelo outro. Essa interseção de computação e memória é a principal aceleração. Segundo, intercalação de operações. Em vez de primeiro calcular todos os produtos de matrizes em blocos, depois softmax, o algoritmo os alterna. Isso reduz a latência e melhora a utilização do cache. Terceiro, baixa precisão de cálculo. FP8 — números de oito bits em vez de FP16 — requer metade da memória e permite fazer duas vezes mais operações por segundo. FlashAttention-3 com FP8 atinge cerca de 1,2 PFLOPS (petaflops).

Não perde qualidade com FP8?

O principal risco da baixa precisão é que os erros se acumulam e prejudicam os resultados. Mas os autores mostram que FlashAttention-3 com FP8 tem um erro apenas 2,6 vezes maior do que o FP8 attention básico. E comparado ao FP16, o erro é quase imperceptível. Isto é importante para contextos longos. Quando um LLM processa um milhão de tokens, os erros em uma camada de atenção se acumulam através de 70+ camadas do modelo. FlashAttention-3 mantém esses erros sob controle, permitindo usar FP8 sem perda de qualidade.

Quem terá ganho

FlashAttention-3 trará ganhos em diferentes cenários:

  • Treinamento de modelos grandes — a aceleração oferece economia de meses de tempo computacional. Para Meta, OpenAI, isso significa a oportunidade de treinar mais variantes com o mesmo orçamento. As contas em nuvem caem 30-50%.
  • Inferência rápida em produção — em um único H100 é possível servir mais usuários simultaneamente, o que torna as APIs comerciais mais econômicas
  • Contextos longos — sistemas RAG, análise de documentos grandes, busca em arquivos agora funcionam sem desaceleração mesmo com um milhão de tokens
  • Computação móvel e edge — FP8 e redução de memória permitem executar modelos em hardware fraco

O algoritmo já está integrado nas principais bibliotecas ML PyTorch, JAX e TensorFlow. O código foi publicado no GitHub, e os desenvolvedores começaram a implementar.

O que isso significa para a indústria

FlashAttention-3 chega no momento certo. GPUs em nuvem estão ficando mais caras, a demanda por LLMs está crescendo e os contextos estão se tornando mais longos. Algoritmos que fazem o hardware funcionar em 75% de sua potência em vez de 35% não são apenas úteis — são críticos para a economia. Isso reduz o custo do treinamento de modelos, acelera a implantação em produção e abre possibilidades para aplicações que antes eram simplesmente não rentáveis. Já existem empresas que se apressaram em integrar FlashAttention-3 em seus sistemas e obtiveram economia notável em suas contas. Para pesquisadores, também é uma boa notícia: podem experimentar mais rápido, testar mais variantes de arquiteturas e tamanhos de modelos.

*Meta é reconhecida como uma organização extremista e proibida na Federação Russa.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…