Nous Research представила Lighthouse Attention для ускорения обучения LLM

Q: Источник материала?

Оригинальная публикация на MarkTechPost. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-17. Время чтения: 3 мин.

Nous Research представила Lighthouse Attention — новый механизм иерархического внимания для значительного ускорения обучения больших языковых моделей. На модели

ЖХ

Редакция Hamidun News

AI‑мониторинг · MarkTechPost

2026-05-17· 2 мин

Nous Research представила Lighthouse Attention для ускорения обучения LLM — Источник: MarkTechPost. Коллаж: Hamidun News.

◐ Слушать статью

Nous Research опубликовала Lighthouse Attention — новый метод оптимизации обучения больших языковых моделей на длинных контекстах. Механизм работает исключительно во время предварительного обучения и полностью отключается после завершения этого процесса, не влияя на архитектуру и поведение готовой модели в прямом проходе.

Как работает

Lighthouse Attention Lighthouse Attention — это селективный иерархический механизм внимания, который обёртывает стандартное масштабированное точечное произведение (scaled dot-product attention) во время предварительного обучения модели. На практике это означает, что при каждом проходе через слой внимания модель использует специальный селективный механизм вместо полного внимания ко всем токенам в контексте. Ключевое отличие от предыдущих подходов (например, NSA и HISA) заключается в симметричном пулировании всех компонентов механизма внимания.

Предыдущие методы сокращали только ключи и значения (K и V), игнорируя запросы, в то время как Lighthouse пулирует запросы, ключи и значения (Q, K и V) одновременно через многоуровневую пирамиду разрешений. Это обеспечивает более сбалансированное и эффективное сокращение вычислений на всех уровнях. Технически это сокращает вычислительную сложность операции внимания с O(N·S·d) до O(S²·d), где N — полная длина контекста, S — размер выбранной компактной подпоследовательности, d — размерность скрытого слоя модели.

После селекции стандартный FlashAttention работает на малой плотной подпоследовательности, что значительно экономит как вычислительные ресурсы, так и требуемую оперативную память GPU.

Впечатляющие результаты

Nous Research протестировала Lighthouse Attention на модели размером 530 миллионов параметров в стиле Llama-3 с контекстом в 98 тысяч токенов — это уже довольно длинный контекст для тестирования. Результаты показали значительное и последовательное улучшение производительности процесса обучения: * Ускорение в 1.40–1.

69 раза в end-to-end обучении по сравнению с базовой реализацией cuDNN SDPA на GPU Сопоставимая или более низкая финальная ошибка обучения (training loss), что гарантирует отсутствие потерь в качестве и точности модели Полная совместимость с существующей инфраструктурой FlashAttention и стандартными фреймворками вроде PyTorch Это означает, что организации смогут обучать большие модели на 40–70 процентов быстрее, не компромиссируя с качеством или точностью результата. Для крупных моделей, обучаемых на огромных датасетах, это выражается в конкретной экономии недель вычислительного времени на дорогостоящих GPU-кластерах.

Практическое применение и масштабируемость

Главное преимущество Lighthouse Attention — его простота внедрения и отсутствие влияния на поведение готовой модели. Механизм используется исключительно во время предварительного обучения и автоматически отключается после завершения этого критического этапа. Это означает, что модель, обученная с Lighthouse, полностью совместима с существующими приложениями, сервисами и рабочими процессами без каких-либо изменений в коде, инфраструктуре или развёртывании.

Ускорение особенно ценно для организаций, которые обучают большие модели на контекстах в десятки и сотни тысяч токенов. Типичные применения: анализ длинных документов и отчётов, полнотекстовый поиск в больших хранилищах знаний, написание и анализ кода на контексте в 100K+ токенов, обработка диалогов с глубокой историей переписки, работа с научными статьями и патентами. Каждый процент экономии вычислительных ресурсов означает конкретную экономию электроэнергии и значительные денежные сбережения на оплату облачных вычислений.

Значение для исследований и индустрии

Оптимизация процесса обучения трансформеров остаётся активной и плодородной областью исследований, несмотря на двадцать лет инвестиций в основные механизмы архитектуры. Lighthouse Attention наглядно демонстрирует, что даже на хорошо изученных и отшлифованных архитектурах внимания остаётся место для инноваций, улучшений и неожиданных оптимизаций. Если подобные методы будут приняты исследовательским сообществом и массово внедрены в популярные открытые фреймворки вроде PyTorch, HuggingFace Transformers и других, это может значительно снизить барьер входа для организаций, стартапов и исследовательских групп, которые хотят обучать собственные большие языковые модели без необходимости огромных вычислительных ресурсов и бюджетов.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com