NVIDIA представила Gated DeltaNet-2: линейное внимание с раздельными вратами памяти
NVIDIA представила Gated DeltaNet-2 — новый механизм линейного внимания для больших языковых моделей. Основное отличие: вместо одного скалярного затвора, новая

NVIDIA представила новый механизм линейного внимания Gated DeltaNet-2, который существенно улучшает управление памятью в больших языковых моделях. Главное отличие — раздельное управление стиранием старых данных и записью новых вместо единого скалярного затвора, используемого в предыдущих поколениях.
Проблема с памятью в линейных моделях
Линейные механизмы внимания решают критическую проблему трансформеров: они сжимают неограниченный KV-кеш в фиксированное рекуррентное состояние. Это позволяет эффективнее работать с длинными текстами и значительно снижает потребление памяти, что критично для практических приложений и устройств с ограниченными ресурсами. Однако есть серьёзный подвох: редактирование памяти без нарушения уже имеющихся связей — задача чрезвычайно сложная.
Модели нужно одновременно узнавать новые факты и сохранять старые знания. Добавишь новую информацию — рискуешь перезаписать важные ассоциации. Забываешь старое — теряешь контекст.
Это классический конфликт между обучением и сохранением. Предыдущие модели вроде Gated DeltaNet и KDA использовали один скалярный затвор для управления обоими процессами одновременно: стирание старых данных и запись новых. Это создаёт неразрешимый конфликт: один рычаг не может эффективно выполнять две противоречивые задачи.
Результат — качество модели страдает, производительность на сложных задачах падает.
Как
DeltaNet-2 переделала архитектуру NVIDIA решила радикально переделать систему управления памятью. Вместо одного скалярного затвора, Gated DeltaNet-2 использует два независимых канальных затвора: Затвор стирания b_t на оси ключей — управляет удалением устаревшей информации Затвор записи w_t на оси значений — контролирует добавление новых данных Каждый затвор работает на уровне каналов (channel-wise), не одним скаляром для всей памяти Это позволяет модели более гибко балансировать между забыванием и обучением * Архитектура содержит 1.3B параметров, обучена на 100B токенов Такое разделение позволяет модели понимать: когда нужно отпустить старую информацию, а когда — бережно сохранить и обновить существующие связи в памяти.
Каждый канал памяти может принимать независимые решения, что значительно повышает гибкость и адаптивность модели к разным типам данных и сложным задачам. Результат — модель может работать с более длинными последовательностями текста без потери качества. Память становится не просто хранилищем данных, а интеллектуальной системой, которая знает, что забыть, а что сохранить.
Впечатляющие результаты на бенчмарках
На официальных тестах Gated DeltaNet-2 показала заметное преимущество над конкурентами: Обогнала Mamba-2 на стандартных задачах языкового моделирования Превзошла исходный Gated DeltaNet и KDA по общей производительности Показала лучшие результаты чем Mamba-3 на задачах с длинным контекстом На RULER S-NIAH (поиск иглы в стоге сена) имеет наиболее впечатляющие улучшения * На multi-key needle retrieval показывает критичное для практики улучшение Особенно примечательны результаты на задачах коммон-сенс рассуждений (commonsense reasoning). Это не просто языковое моделирование, а логическое понимание отношений между концепциями. Раздельное управление памятью улучшает не только скорость вычислений, но и качество понимания логических связей — сигнал того, что архитектурные решения глубоко влияют на интеллект модели.
Что это значит
Gated DeltaNet-2 демонстрирует важный принцип: эффективность линейных механизмов внимания зависит не от самой идеи линейности, а от архитектурных деталей её реализации. Когда инженеры правильно разделяют функции (стирание vs. запись), система становится одновременно быстрее и умнее. На практике это означает: модели смогут обрабатывать документы длиной в сотни тысяч токенов без потери качества. Это открывает новые возможности для приложений с требованием длинного контекста — от интеллектуального поиска по большим базам текстов до сложных диалоговых систем, которым нужно помнить всю историю разговора.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.