Nous Research apresentou Lighthouse Attention para acelerar o treinamento de LLM

Q: Источник материала?

Оригинальная публикация на MarkTechPost. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-17. Время чтения: 3 мин.

A Nous Research apresentou Lighthouse Attention — um novo mecanismo de atenção hierárquica para acelerar significativamente o treinamento de grandes modelos de

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

2026-05-17· 2 min

Nous Research apresentou Lighthouse Attention para acelerar o treinamento de LLM — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

Nous Research publicou Lighthouse Attention — um novo método de otimização para treinamento de grandes modelos de linguagem em contextos longos. O mecanismo funciona exclusivamente durante o pré-treinamento e é completamente desabilitado após a conclusão deste processo, sem afetar a arquitetura e o comportamento do modelo finalizado na passagem direta.

Como o Lighthouse Attention Funciona

Lighthouse Attention é um mecanismo de atenção hierárquica seletiva que envolve a atenção de produto escalado padrão (scaled dot-product attention) durante o pré-treinamento do modelo. Na prática, isso significa que durante cada passagem através de uma camada de atenção, o modelo usa um mecanismo seletivo especial em vez de atenção completa a todos os tokens no contexto.

A principal diferença em relação a abordagens anteriores (como NSA e HISA) está no agrupamento simétrico de todos os componentes do mecanismo de atenção. Métodos anteriores reduziam apenas chaves e valores (K e V), ignorando consultas, enquanto Lighthouse agrupa consultas, chaves e valores (Q, K e V) simultaneamente através de uma pirâmide de resolução multinível. Isso garante redução computacional mais equilibrada e eficiente em todos os níveis.

Tecnicamente, isso reduz a complexidade computacional da operação de atenção de O(N·S·d) para O(S²·d), onde N é o comprimento total do contexto, S é o tamanho da subsequência compacta selecionada, e d é a dimensão da camada oculta do modelo. Após a seleção, o FlashAttention padrão funciona na pequena subsequência densa, o que economiza significativamente tanto recursos computacionais quanto memória GPU necessária.

Resultados Impressionantes

Nous Research testou Lighthouse Attention em um modelo de 530 milhões de parâmetros no estilo Llama-3 com um contexto de 98 mil tokens — já um contexto bastante longo para testes. Os resultados mostraram melhorias significativas e consistentes no desempenho do treinamento:

Aceleração de 1,40–1,69 vezes no treinamento end-to-end em comparação com a implementação de linha de base cuDNN SDPA em GPU
Perda de treinamento final comparável ou mais baixa, garantindo nenhuma perda de qualidade e precisão do modelo
Compatibilidade total com infraestrutura FlashAttention existente e frameworks padrão como PyTorch

Isso significa que as organizações poderão treinar grandes modelos 40–70 por cento mais rápido sem comprometer a qualidade ou precisão. Para modelos grandes treinados em conjuntos de dados massivos, isso se traduz em economia concreta de semanas de tempo computacional em clusters GPU caros.

Aplicação Prática e Escalabilidade

A principal vantagem do Lighthouse Attention é sua simplicidade de implementação e falta de impacto no comportamento do modelo finalizado. O mecanismo é usado exclusivamente durante o pré-treinamento e é automaticamente desabilitado após esta etapa crítica. Isso significa que um modelo treinado com Lighthouse é totalmente compatível com aplicativos, serviços e fluxos de trabalho existentes sem alterações de código, infraestrutura ou implantação.

A aceleração é particularmente valiosa para organizações que treinam grandes modelos em contextos de dezenas e centenas de milhares de tokens. Aplicações típicas incluem: análise de documentos e relatórios longos, busca de texto completo em grandes repositórios de conhecimento, escrita e análise de código em contextos de 100K+ tokens, processamento de diálogos com histórico profundo de mensagens, trabalho com artigos científicos e patentes.

Cada porcento de economia de recursos computacionais significa economia concreta de eletricidade e economia financeira significativa em custos de computação em nuvem.

Significância para Pesquisa e Indústria

A otimização de processos de treinamento de transformers permanece como uma área ativa e frutífera de pesquisa, apesar de vinte anos de investimento em mecanismos fundamentais de arquitetura. Lighthouse Attention demonstra claramente que mesmo em arquiteturas de atenção bem estudadas e refinadas, há espaço para inovação, melhoria e otimizações inesperadas.

Se métodos semelhantes forem adotados pela comunidade de pesquisa e amplamente implementados em frameworks de código aberto populares como PyTorch, HuggingFace Transformers e outros, isso pode diminuir significativamente a barreira de entrada para organizações, startups e grupos de pesquisa que desejam treinar seus próprios grandes modelos de linguagem sem a necessidade de recursos computacionais enormes e orçamentos.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com