Nous Research представила Lighthouse Attention для ускорения обучения LLM
Nous Research представила Lighthouse Attention — новый механизм иерархического внимания для значительного ускорения обучения больших языковых моделей. На модели

Nous Research опубликовала Lighthouse Attention — новый метод оптимизации обучения больших языковых моделей на длинных контекстах. Механизм работает исключительно во время предварительного обучения и полностью отключается после завершения этого процесса, не влияя на архитектуру и поведение готовой модели в прямом проходе.
Как работает
Lighthouse Attention Lighthouse Attention — это селективный иерархический механизм внимания, который обёртывает стандартное масштабированное точечное произведение (scaled dot-product attention) во время предварительного обучения модели. На практике это означает, что при каждом проходе через слой внимания модель использует специальный селективный механизм вместо полного внимания ко всем токенам в контексте. Ключевое отличие от предыдущих подходов (например, NSA и HISA) заключается в симметричном пулировании всех компонентов механизма внимания.
Предыдущие методы сокращали только ключи и значения (K и V), игнорируя запросы, в то время как Lighthouse пулирует запросы, ключи и значения (Q, K и V) одновременно через многоуровневую пирамиду разрешений. Это обеспечивает более сбалансированное и эффективное сокращение вычислений на всех уровнях. Технически это сокращает вычислительную сложность операции внимания с O(N·S·d) до O(S²·d), где N — полная длина контекста, S — размер выбранной компактной подпоследовательности, d — размерность скрытого слоя модели.
После селекции стандартный FlashAttention работает на малой плотной подпоследовательности, что значительно экономит как вычислительные ресурсы, так и требуемую оперативную память GPU.
Впечатляющие результаты
Nous Research протестировала Lighthouse Attention на модели размером 530 миллионов параметров в стиле Llama-3 с контекстом в 98 тысяч токенов — это уже довольно длинный контекст для тестирования. Результаты показали значительное и последовательное улучшение производительности процесса обучения: * Ускорение в 1.40–1.
69 раза в end-to-end обучении по сравнению с базовой реализацией cuDNN SDPA на GPU Сопоставимая или более низкая финальная ошибка обучения (training loss), что гарантирует отсутствие потерь в качестве и точности модели Полная совместимость с существующей инфраструктурой FlashAttention и стандартными фреймворками вроде PyTorch Это означает, что организации смогут обучать большие модели на 40–70 процентов быстрее, не компромиссируя с качеством или точностью результата. Для крупных моделей, обучаемых на огромных датасетах, это выражается в конкретной экономии недель вычислительного времени на дорогостоящих GPU-кластерах.
Практическое применение и масштабируемость
Главное преимущество Lighthouse Attention — его простота внедрения и отсутствие влияния на поведение готовой модели. Механизм используется исключительно во время предварительного обучения и автоматически отключается после завершения этого критического этапа. Это означает, что модель, обученная с Lighthouse, полностью совместима с существующими приложениями, сервисами и рабочими процессами без каких-либо изменений в коде, инфраструктуре или развёртывании.
Ускорение особенно ценно для организаций, которые обучают большие модели на контекстах в десятки и сотни тысяч токенов. Типичные применения: анализ длинных документов и отчётов, полнотекстовый поиск в больших хранилищах знаний, написание и анализ кода на контексте в 100K+ токенов, обработка диалогов с глубокой историей переписки, работа с научными статьями и патентами. Каждый процент экономии вычислительных ресурсов означает конкретную экономию электроэнергии и значительные денежные сбережения на оплату облачных вычислений.
Значение для исследований и индустрии
Оптимизация процесса обучения трансформеров остаётся активной и плодородной областью исследований, несмотря на двадцать лет инвестиций в основные механизмы архитектуры. Lighthouse Attention наглядно демонстрирует, что даже на хорошо изученных и отшлифованных архитектурах внимания остаётся место для инноваций, улучшений и неожиданных оптимизаций. Если подобные методы будут приняты исследовательским сообществом и массово внедрены в популярные открытые фреймворки вроде PyTorch, HuggingFace Transformers и других, это может значительно снизить барьер входа для организаций, стартапов и исследовательских групп, которые хотят обучать собственные большие языковые модели без необходимости огромных вычислительных ресурсов и бюджетов.