Nous Research apresentou Lighthouse Attention para acelerar o treinamento de LLM
A Nous Research apresentou Lighthouse Attention — um novo mecanismo de atenção hierárquica para acelerar significativamente o treinamento de grandes modelos de

Nous Research publicou Lighthouse Attention — um novo método de otimização para treinamento de grandes modelos de linguagem em contextos longos. O mecanismo funciona exclusivamente durante o pré-treinamento e é completamente desabilitado após a conclusão deste processo, sem afetar a arquitetura e o comportamento do modelo finalizado na passagem direta.
Como o Lighthouse Attention Funciona
Lighthouse Attention é um mecanismo de atenção hierárquica seletiva que envolve a atenção de produto escalado padrão (scaled dot-product attention) durante o pré-treinamento do modelo. Na prática, isso significa que durante cada passagem através de uma camada de atenção, o modelo usa um mecanismo seletivo especial em vez de atenção completa a todos os tokens no contexto.
A principal diferença em relação a abordagens anteriores (como NSA e HISA) está no agrupamento simétrico de todos os componentes do mecanismo de atenção. Métodos anteriores reduziam apenas chaves e valores (K e V), ignorando consultas, enquanto Lighthouse agrupa consultas, chaves e valores (Q, K e V) simultaneamente através de uma pirâmide de resolução multinível. Isso garante redução computacional mais equilibrada e eficiente em todos os níveis.
Tecnicamente, isso reduz a complexidade computacional da operação de atenção de O(N·S·d) para O(S²·d), onde N é o comprimento total do contexto, S é o tamanho da subsequência compacta selecionada, e d é a dimensão da camada oculta do modelo. Após a seleção, o FlashAttention padrão funciona na pequena subsequência densa, o que economiza significativamente tanto recursos computacionais quanto memória GPU necessária.
Resultados Impressionantes
Nous Research testou Lighthouse Attention em um modelo de 530 milhões de parâmetros no estilo Llama-3 com um contexto de 98 mil tokens — já um contexto bastante longo para testes. Os resultados mostraram melhorias significativas e consistentes no desempenho do treinamento:
- Aceleração de 1,40–1,69 vezes no treinamento end-to-end em comparação com a implementação de linha de base cuDNN SDPA em GPU
- Perda de treinamento final comparável ou mais baixa, garantindo nenhuma perda de qualidade e precisão do modelo
- Compatibilidade total com infraestrutura FlashAttention existente e frameworks padrão como PyTorch
Isso significa que as organizações poderão treinar grandes modelos 40–70 por cento mais rápido sem comprometer a qualidade ou precisão. Para modelos grandes treinados em conjuntos de dados massivos, isso se traduz em economia concreta de semanas de tempo computacional em clusters GPU caros.
Aplicação Prática e Escalabilidade
A principal vantagem do Lighthouse Attention é sua simplicidade de implementação e falta de impacto no comportamento do modelo finalizado. O mecanismo é usado exclusivamente durante o pré-treinamento e é automaticamente desabilitado após esta etapa crítica. Isso significa que um modelo treinado com Lighthouse é totalmente compatível com aplicativos, serviços e fluxos de trabalho existentes sem alterações de código, infraestrutura ou implantação.
A aceleração é particularmente valiosa para organizações que treinam grandes modelos em contextos de dezenas e centenas de milhares de tokens. Aplicações típicas incluem: análise de documentos e relatórios longos, busca de texto completo em grandes repositórios de conhecimento, escrita e análise de código em contextos de 100K+ tokens, processamento de diálogos com histórico profundo de mensagens, trabalho com artigos científicos e patentes.
Cada porcento de economia de recursos computacionais significa economia concreta de eletricidade e economia financeira significativa em custos de computação em nuvem.
Significância para Pesquisa e Indústria
A otimização de processos de treinamento de transformers permanece como uma área ativa e frutífera de pesquisa, apesar de vinte anos de investimento em mecanismos fundamentais de arquitetura. Lighthouse Attention demonstra claramente que mesmo em arquiteturas de atenção bem estudadas e refinadas, há espaço para inovação, melhoria e otimizações inesperadas.
Se métodos semelhantes forem adotados pela comunidade de pesquisa e amplamente implementados em frameworks de código aberto populares como PyTorch, HuggingFace Transformers e outros, isso pode diminuir significativamente a barreira de entrada para organizações, startups e grupos de pesquisa que desejam treinar seus próprios grandes modelos de linguagem sem a necessidade de recursos computacionais enormes e orçamentos.