Hugging Face Blog→ оригинал

Гибридные модели лучше предсказывают смысловые слова, чем трансформеры — исследование Allen AI

Команда Allen AI сравнила трансформер OLMo 3 с гибридной OLMo Hybrid при одинаковых условиях обучения. Вывод: гибриды точнее предсказывают смысловые токены…

AI-обработка оригинала Hugging Face Blog; редакция Hamidun News
Гибридные модели лучше предсказывают смысловые слова, чем трансформеры — исследование Allen AI
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

Команда Allen AI (Ai2) выяснила, на каких именно токенах гибридные языковые модели превосходят трансформеры — и где это преимущество сходит на нет. Авторы сравнили OLMo 3 (трансформер) и OLMo Hybrid в идентичных условиях обучения, чтобы изолировать чисто архитектурный эффект.

Трансформер против гибрида

Главный вопрос исследования: что именно меняется в поведении модели, когда часть слоёв внимания заменяется рекуррентными? Обе модели обучались на одних и тех же данных — статьях, страницах Википедии, книгах, научных работах, коде, HTML и LaTeX. Разница в функции потерь при предсказании следующего токена («loss gap») измерялась не в среднем, а в разбивке по категориям. Принципиальное различие архитектур: Трансформер обращается к каждому предыдущему токену через механизм внимания — точно, но вычислительно дорого: стоимость растёт с длиной контекста. Гибрид чередует слои внимания с рекуррентными: последние хранят фиксированный «слепок» истории при постоянных вычислительных затратах вне зависимости от длины последовательности. Рекуррентный компонент силён там, где важно отслеживать изменение информации. Внимание незаменимо там, где нужно точечно вспомнить конкретный токен из прошлого.

Где гибрид берёт верх

На всех типах текста зафиксировалась чёткая закономерность: гибридная модель точнее предсказывает смысловые слова — существительные, глаголы, прилагательные. Loss gap в её пользу на таких токенах составил около 0,04, тогда как на служебных словах (предлогах, артиклях, союзах) разрыв вдвое меньше — 0,02. Трансформер остаётся конкурентоспособным там, где достаточно уловить поверхностную грамматическую закономерность. Для понимания природы преимущества исследователи дополнительно сравнили три архитектуры на моделях в 1B параметров — трансформер, гибрид и полностью рекуррентную модель без слоёв внимания. Результат на смысловых, нелексически повторяющихся токенах: * И гибрид, и чисто рекуррентная модель обогнали трансформер.

  • Из этих двух гибрид занял первое место.
  • Чисто рекуррентная модель без внимания отстала от обеих на повторяющихся фрагментах. Это говорит о том, что рекуррентные слои сами по себе дают преимущество на смысловых токенах, а присутствие слоёв внимания закрывает слабое место рекуррента при точном копировании текста.

Где преимущество исчезает **Скобочный матчинг.**

Закрывающие скобки — в коде или математическом тексте — трансформер и гибрид предсказывают с почти одинаковой точностью. Здесь достаточно посмотреть назад через внимание и найти парную открывающую скобку; рекуррентный компонент не добавляет выигрыша. Повторяющиеся n-граммы. Чем длиннее фрагмент, который модель буквально воспроизводит из ранее встреченного текста, тем меньше разрыв в пользу гибрида. На длинных прогонах он стремится к нулю. Чисто рекуррентные модели на таких повторах проигрывают обеим — точечное «воспоминание» конкретной последовательности является именно тем, для чего нужно внимание.

«Гибрид OLMo сильнее на токенах, несущих смысл — существительных,

глаголах, прилагательных», — указывают авторы, добавляя, что на воспроизведении повторяющегося текста это преимущество уменьшается.

Что это значит

Агрегатная метрика (суммарная функция потерь) скрывает архитектурные различия: только фильтрация по категориям токенов показывает, где именно один подход превосходит другой. Команда Allen AI намерена встраивать эти находки в дальнейшую разработку гибридных архитектур — оптимизируя конкретные компоненты, а не усреднённые цифры.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…