Together AI Blog→ original

FlashAttention-4: como Together AI acelerou atenção na GPU Blackwell

FlashAttention-4 redesenhou o núcleo de atenção especificamente para Blackwell. A aceleração vem da nova tensor memory (TMEM) e do modo 2-CTA MMA, que resolvem

Processado por IA de Together AI Blog; editado por Hamidun News
FlashAttention-4: como Together AI acelerou atenção na GPU Blackwell
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

FlashAttention-4 — é um redesenho do algoritmo de atenção especificamente para GPUs modernas, onde os núcleos tensores crescem em desempenho significativamente mais rápido do que a memória e outros recursos.

Por que a abordagem padrão não funciona mais

À primeira vista, o desempenho de atenção (attention) é controlado pela velocidade de duas multiplicações matriciais: S = Q × K^T e O = P × V. Mas a análise da Blackwell B200 mostra algo inesperado: o gargalo não está nos núcleos tensores, mas em blocos funcionais especiais (SFU) para calcular a exponencial no softmax (forward pass) e no tráfego de memória compartilhada (backward pass).

De Hopper (H100) para Blackwell (B200), o desempenho dos núcleos tensores BF16 aumentou de 1 para 2.25 petaflops, enquanto a quantidade de SFU e a largura de banda da memória compartilhada permaneceram as mesmas. Essa assimetria quebra a otimização padrão — não se pode simplesmente assumir que os núcleos determinam completamente o desempenho. Na realidade, eles se atrapalham mutuamente.

Como Together AI resolveu o problema

O grupo de pesquisa junto com engenheiros da NVIDIA, Meta e Princeton propôs três ideias-chave:

  • Novo pipelining — pipelines de software que maximalmente sobrepõem o trabalho dos núcleos tensores, SFU e memória sem ociosidade.
  • Imitação da exponencial através de polinômios — em vez do lento bloco SFU, o forward pass calcula a exponencial em unidades FMA rápidas (fused multiply-add).
  • TMEM e 2-CTA MMA — uso da nova tensor memory (256 KB por SM) mais um modo onde dois blocos de threads trabalham em uma operação matricial, reduzindo o tráfego de memória compartilhada.

Capacidades do Blackwell que tornaram isso possível

Blackwell adicionou especificamente alguns recursos para tais otimizações:

Tensor memory (TMEM) — armazenamento rápido no-chip (256 KB por cada SM), interconectado diretamente aos núcleos tensores. Resultados intermediários podem permanecer em TMEM sem ir para a mais lenta memória compartilhada, o que reduz drasticamente a latência de acesso.

Núcleos tensores assíncronos de 5ª geração — cada núcleo é iniciado por um único thread e acumula resultados em TMEM. O tile máximo para BF16 é 128×256×16 (aproximadamente 2 vezes maior que em Hopper), permitindo pipelining mais profundo sem overflow de registradores.

2-CTA MMA — novo modo onde dois blocos de threads trabalham simultaneamente em uma operação matricial. Isso reduz a carga na memória compartilhada pela metade e diminui o número de operações atômicas.

Números e resultados

FlashAttention-4 na Blackwell B200 com BF16 atinge 1605 TFLOPs/s (71% de utilização). Isso é 1.3× mais rápido que cuDNN 9.13 e 2.7× mais rápido que Triton. Para contexto: 1605 petaflops — é quase metade do desempenho de pico do Blackwell, mas extraído do complexo núcleo de atenção.

O que isso significa

FlashAttention-4 mostra como trabalhar na era do escalonamento assimétrico de GPUs — não refinar parafusos em algoritmos antigos, mas redesenhá-los conjuntamente com as novas capacidades do hardware. O resultado parece um feito, mas é apenas o começo da adaptação à nova realidade do hardware.

*Meta é reconhecida como organização extremista e proibida na RF.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…