Nous Research a présenté Lighthouse Attention pour accélérer l'entraînement des LLM
Nous Research a présenté Lighthouse Attention, un nouveau mécanisme d'attention hiérarchique pour accélérer significativement l'entraînement de grands modèles d

Nous Research a publié Lighthouse Attention — une nouvelle méthode d'optimisation pour l'entraînement de grands modèles de langage sur des contextes longs. Le mécanisme fonctionne exclusivement lors du préentraînement et est complètement désactivé après la conclusion de ce processus, sans affecter l'architecture et le comportement du modèle fini lors du passage direct.
Comment Fonctionne Lighthouse Attention
Lighthouse Attention est un mécanisme d'attention hiérarchique sélectif qui enveloppe l'attention standard de produit mis à l'échelle (scaled dot-product attention) lors du préentraînement du modèle. En pratique, cela signifie que lors de chaque passage à travers une couche d'attention, le modèle utilise un mécanisme sélectif spécial au lieu d'une attention complète à tous les jetons du contexte.
La différence clé par rapport aux approches précédentes (telles que NSA et HISA) réside dans le regroupement symétrique de tous les composants du mécanisme d'attention. Les méthodes précédentes réduisaient uniquement les clés et les valeurs (K et V), ignorant les requêtes, tandis que Lighthouse regroupe les requêtes, les clés et les valeurs (Q, K et V) simultanément à travers une pyramide de résolution multi-niveaux. Cela garantit une réduction computationnelle plus équilibrée et efficace à tous les niveaux.
Techniquement, cela réduit la complexité computationnelle de l'opération d'attention de O(N·S·d) à O(S²·d), où N est la longueur totale du contexte, S est la taille de la sous-séquence compacte sélectionnée, et d est la dimension de la couche cachée du modèle. Après la sélection, FlashAttention standard fonctionne sur la petite sous-séquence dense, ce qui économise considérablement à la fois les ressources de calcul et la mémoire GPU requise.
Résultats Impressionnants
Nous Research a testé Lighthouse Attention sur un modèle de 530 millions de paramètres au style Llama-3 avec un contexte de 98 mille jetons — déjà un contexte assez long pour les tests. Les résultats ont montré des améliorations significatives et cohérentes dans les performances d'entraînement :
- Accélération de 1,40–1,69 fois en entraînement end-to-end par rapport à l'implémentation de base cuDNN SDPA sur GPU
- Perte d'entraînement finale comparable ou inférieure, garantissant aucune perte de qualité et de précision du modèle
- Compatibilité totale avec l'infrastructure FlashAttention existante et les frameworks standards comme PyTorch
Cela signifie que les organisations pourront entraîner des modèles plus grands 40–70 pour cent plus rapidement sans compromettre la qualité ou la précision. Pour les modèles volumineux entraînés sur des ensembles de données massifs, cela se traduit par des économies concrètes de semaines de temps de calcul sur des clusters GPU coûteux.
Application Pratique et Scalabilité
Le principal avantage de Lighthouse Attention est sa simplicité de mise en œuvre et son absence d'impact sur le comportement du modèle fini. Le mécanisme est utilisé exclusivement lors du préentraînement et est automatiquement désactivé après cette étape critique. Cela signifie qu'un modèle entraîné avec Lighthouse est entièrement compatible avec les applications, services et flux de travail existants sans aucune modification du code, de l'infrastructure ou du déploiement.
L'accélération est particulièrement précieuse pour les organisations qui entraînent de grands modèles sur des contextes de dizaines et de centaines de milliers de jetons. Les applications typiques incluent : l'analyse de documents et rapports longs, la recherche de texte intégral dans de grands référentiels de connaissances, l'écriture et l'analyse de code sur des contextes de 100K+ jetons, le traitement des dialogues avec un historique profond de messages, le travail avec des articles scientifiques et des brevets.
Chaque pourcentage d'économie de ressources de calcul signifie des économies concrètes d'électricité et des économies financières importantes sur les coûts de calcul en nuage.
Importance pour la Recherche et l'Industrie
L'optimisation des processus d'entraînement des transformers reste un domaine actif et fécond de recherche, malgré vingt ans d'investissement dans les mécanismes fondamentaux de l'architecture. Lighthouse Attention démontre clairement que même sur des architectures d'attention bien étudiées et affinées, il reste de la place pour l'innovation, l'amélioration et des optimisations inattendues.
Si des méthodes similaires sont adoptées par la communauté de recherche et largement implémentées dans les frameworks open-source populaires comme PyTorch, HuggingFace Transformers et autres, cela pourrait réduire considérablement la barrière à l'entrée pour les organisations, startups et groupes de recherche qui souhaitent entraîner leurs propres grands modèles de langage sans avoir besoin de ressources informatiques énormes et de budgets.