MarkTechPost→ original

A equipe Qwen lançou FlashQLA: acelerando atenção linear até 3× em NVIDIA Hopper

A equipe QwenLM lançou FlashQLA — uma biblioteca de kernels de código aberto para atenção linear que acelera passes para frente e para trás da Gated Delta…

Processado por IA de MarkTechPost; editado por Hamidun News
A equipe Qwen lançou FlashQLA: acelerando atenção linear até 3× em NVIDIA Hopper
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A equipe QwenLM lançou FlashQLA — uma biblioteca de kernels de código aberto que acelera operações de atenção linear até três vezes em arquitetura GPU NVIDIA Hopper. A biblioteca é direcionada para dois cenários: pré-treinamento em larga escala de modelos de linguagem e inferência de agentes em dispositivos edge.

O que é FlashQLA

FlashQLA otimiza passes para frente e para trás para a arquitetura Gated Delta Network (GDN) em modo Chunked Prefill. GDN é uma variante de atenção linear: um mecanismo com complexidade computacional O(n) sobre o comprimento do contexto, diferentemente de O(n²) para transformadores padrão. Na prática, isso significa que modelos baseados em GDN podem trabalhar com contextos muito longos sem crescimento explosivo no consumo de memória.

O problema é que as vantagens teóricas não se convertem em velocidade real sem kernels eficientes de baixo nível. FlashQLA preenche essa lacuna. O nome faz referência a FlashAttention — uma biblioteca que tornou a atenção quadrática prática para sequências longas através de otimização de memória baseada em tiles. FlashQLA resolve um problema análogo para arquiteturas lineares: fornece uma camada de infraestrutura sem a qual uma abordagem teoricamente promissora não oferece números reais.

Aceleração de 3×: Como Funciona

O ganho de desempenho é alcançado através de otimização profunda para NVIDIA Hopper (H100/H200) — GPUs que dominam data centers em nuvem modernos. A arquitetura Hopper inclui unidades especializadas para lógica de computação recorrente e esparsa, que se alinha bem com os requisitos do GDN.

A biblioteca cobre vários cenários:

  • Pré-treinamento em larga escala — pass para trás acelerado reduz tempo e custo de treinamento
  • Inferência em edge — execução eficiente sem GPU em nuvem poderosa, importante para implantação em dispositivos
  • Chunked Prefill — divisão de contexto de entrada longo em blocos reduz consumo de memória de pico
  • Inferência de agentes — múltiplas chamadas de modelo em um único stream sem acumulação de latências
  • Arquiteturas híbridas — compatibilidade com modelos que combinam atenção linear e padrão

Antes do FlashQLA, desenvolvedores com arquiteturas GDN obtinham benchmarks fracos não devido a deficiências arquiteturais, mas devido à falta de kernels otimizados. Isso criava uma falsa impressão de falta de competitividade da atenção linear.

Por Que Isso Importa para Alibaba e Qwen

A equipe Qwen da Alibaba Cloud é um dos jogadores mais ativos no desenvolvimento de LLM de código aberto. A série de modelos Qwen expande consistentemente recursos: contexto longo, multimodalidade, versões especializadas para código e matemática, suporte a chamadas de ferramentas.

O lançamento do FlashQLA é uma aposta de infraestrutura, não apenas um artefato de pesquisa. Alibaba está investindo na ideia de que arquiteturas lineares e híbridas ocuparão um nicho significativo na próxima geração de LLMs — especialmente onde contexto longo e eficiência de recursos importam. O foco especificamente em Hopper, e não em gerações mais antigas de GPU, sinaliza um alvo em cenários de produção, não condições de laboratório.

O Que Isso Significa

FlashQLA sinaliza que arquiteturas lineares estão fazendo a transição de fase de pesquisa para fase de engenharia. Aceleração de 3× em hardware atual torna modelos GDN verdadeiramente competitivos com transformadores para tarefas de contexto longo e inferência de agentes. Para desenvolvedores trabalhando com arquiteturas não-transformer, esta é a chegada de ferramentas adequadas — não apenas promessas teóricas.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…