MarkTechPost→ original

Nous Research apresentou Lighthouse Attention para acelerar o treinamento de LLM

A Nous Research apresentou Lighthouse Attention — um novo mecanismo de atenção hierárquica para acelerar significativamente o treinamento de grandes modelos…

Processado por IA de MarkTechPost; editado por Hamidun News
Nous Research apresentou Lighthouse Attention para acelerar o treinamento de LLM
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

Nous Research publicou Lighthouse Attention — um novo método de otimização para treinamento de grandes modelos de linguagem em contextos longos. O mecanismo funciona exclusivamente durante o pré-treinamento e é completamente desabilitado após a conclusão deste processo, sem afetar a arquitetura e o comportamento do modelo finalizado na passagem direta.

Como o Lighthouse Attention Funciona

Lighthouse Attention é um mecanismo de atenção hierárquica seletiva que envolve a atenção de produto escalado padrão (scaled dot-product attention) durante o pré-treinamento do modelo. Na prática, isso significa que durante cada passagem através de uma camada de atenção, o modelo usa um mecanismo seletivo especial em vez de atenção completa a todos os tokens no contexto.

A principal diferença em relação a abordagens anteriores (como NSA e HISA) está no agrupamento simétrico de todos os componentes do mecanismo de atenção. Métodos anteriores reduziam apenas chaves e valores (K e V), ignorando consultas, enquanto Lighthouse agrupa consultas, chaves e valores (Q, K e V) simultaneamente através de uma pirâmide de resolução multinível. Isso garante redução computacional mais equilibrada e eficiente em todos os níveis.

Tecnicamente, isso reduz a complexidade computacional da operação de atenção de O(N·S·d) para O(S²·d), onde N é o comprimento total do contexto, S é o tamanho da subsequência compacta selecionada, e d é a dimensão da camada oculta do modelo. Após a seleção, o FlashAttention padrão funciona na pequena subsequência densa, o que economiza significativamente tanto recursos computacionais quanto memória GPU necessária.

Resultados Impressionantes

Nous Research testou Lighthouse Attention em um modelo de 530 milhões de parâmetros no estilo Llama-3 com um contexto de 98 mil tokens — já um contexto bastante longo para testes. Os resultados mostraram melhorias significativas e consistentes no desempenho do treinamento:

  • Aceleração de 1,40–1,69 vezes no treinamento end-to-end em comparação com a implementação de linha de base cuDNN SDPA em GPU
  • Perda de treinamento final comparável ou mais baixa, garantindo nenhuma perda de qualidade e precisão do modelo
  • Compatibilidade total com infraestrutura FlashAttention existente e frameworks padrão como PyTorch

Isso significa que as organizações poderão treinar grandes modelos 40–70 por cento mais rápido sem comprometer a qualidade ou precisão. Para modelos grandes treinados em conjuntos de dados massivos, isso se traduz em economia concreta de semanas de tempo computacional em clusters GPU caros.

Aplicação Prática e Escalabilidade

A principal vantagem do Lighthouse Attention é sua simplicidade de implementação e falta de impacto no comportamento do modelo finalizado. O mecanismo é usado exclusivamente durante o pré-treinamento e é automaticamente desabilitado após esta etapa crítica. Isso significa que um modelo treinado com Lighthouse é totalmente compatível com aplicativos, serviços e fluxos de trabalho existentes sem alterações de código, infraestrutura ou implantação.

A aceleração é particularmente valiosa para organizações que treinam grandes modelos em contextos de dezenas e centenas de milhares de tokens. Aplicações típicas incluem: análise de documentos e relatórios longos, busca de texto completo em grandes repositórios de conhecimento, escrita e análise de código em contextos de 100K+ tokens, processamento de diálogos com histórico profundo de mensagens, trabalho com artigos científicos e patentes.

Cada porcento de economia de recursos computacionais significa economia concreta de eletricidade e economia financeira significativa em custos de computação em nuvem.

Significância para Pesquisa e Indústria

A otimização de processos de treinamento de transformers permanece como uma área ativa e frutífera de pesquisa, apesar de vinte anos de investimento em mecanismos fundamentais de arquitetura. Lighthouse Attention demonstra claramente que mesmo em arquiteturas de atenção bem estudadas e refinadas, há espaço para inovação, melhoria e otimizações inesperadas.

Se métodos semelhantes forem adotados pela comunidade de pesquisa e amplamente implementados em frameworks de código aberto populares como PyTorch, HuggingFace Transformers e outros, isso pode diminuir significativamente a barreira de entrada para organizações, startups e grupos de pesquisa que desejam treinar seus próprios grandes modelos de linguagem sem a necessidade de recursos computacionais enormes e orçamentos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…