Habr AI→ оригинал

Lubomir Gorbatko Présente Sessa — Une Alternative aux Transformers et Mamba

Habr a analysé l'architecture Sessa — une nouvelle tentative de repenser les décodeurs pour contextes longs. L'idée est de combiner l'adaptabilité de l'attentio

Lubomir Gorbatko Présente Sessa — Une Alternative aux Transformers et Mamba
Источник: Habr AI. Коллаж: Hamidun News.

На Habr вышел разбор архитектуры Sessa — это попытка переосмыслить decoder-only модели и предложить альтернативу привычной связке Transformer и Mamba. Автор не обещает готовую замену лидерам рынка, а показывает более базовую вещь: разные декодеры можно описать через общий фундамент, а затем честно сравнить, как они хранят и извлекают информацию из длинного контекста. Логика статьи строится от простого к сложному.

Сначала автор заново выводит Transformer не как набор знакомых блоков, а как развитие обычной свёртки. Идея в том, что фиксированное окно и фиксированные коэффициенты быстро упираются в ограничения: такой миксер видит только локальный контекст и плохо адаптируется к задаче. Если сделать веса зависимыми от входа, а затем нормировать их через softmax, естественным образом появляется attention.

В этой интерпретации сильная сторона трансформера — гибкое сравнение текущего токена с предыдущими, но цена за это известна: вычисления дорожают по мере роста длины последовательности, а в диффузном режиме внимание хуже удерживает конкретный далёкий элемент. Дальше статья переходит к S4D и Mamba. Здесь автор смотрит на проблему как на задачу памяти: вместо того чтобы каждый раз перечитывать весь префикс, модель может накапливать прошлое во внутреннем состоянии.

Такой подход снимает часть проблем attention и делает работу с длинными последовательностями дешевле. Но у него есть своя граница. В изложении автора Mamba хорошо работает, когда механизм selective state space умеет вовремя «замораживать» состояние и удерживать нужный сигнал.

Если этот режим распознаётся плохо, особенно на шумных или очень длинных последовательностях, влияние старых токенов начинает затухать экспоненциально, и точечное извлечение нужной информации становится менее надёжным. На этом фоне Sessa подаётся как гибридный вариант. Автор предлагает совместить две идеи: сохранить attention-подобную адаптивность и одновременно добавить feedback, то есть управляемую обратную связь через прошлые состояния.

Внутри слоя появляются две ветки: forward, которая собирает информацию из префикса, и feedback, которая повторно использует уже накопленные состояния. Ключевая мысль в том, что коэффициенты обеих веток зависят от текущего токена и длины последовательности, а значит модель получает более гибкий механизм памяти, чем классический Transformer, и более прямой доступ к истории, чем у Mamba. По сути, это попытка встроить внимание внутрь рекуррентного контура, а не держать эти подходы по разные стороны баррикад.

Главный акцент статьи — не на лозунге «мы победили трансформеры», а на сравнении режимов памяти. Автор рассматривает контролируемый сценарий, где моделям трудно точно сфокусироваться на одном нужном токене. В таком режиме у Transformer влияние далёких токенов убывает примерно как обратная величина расстояния, у Mamba — экспоненциально, а у Sessa хвост затухает медленнее, что теоретически даёт более устойчивое извлечение на длинной дистанции.

В многослойной конфигурации Sessa, по утверждению автора, может даже поддерживать профили retrieval без деградации по расстоянию. Вместе с Habr-постом опубликованы arXiv-работа и код, а в самом исследовании заявлены и сопоставимые эксперименты на длинном контексте. При этом автор прямо показывает текущую границу результата: сейчас это в первую очередь теория и архитектурная гипотеза, а следующий важный шаг — обучение на масштабе в несколько миллиардов параметров и проверка вне аккуратно контролируемых режимов.

Если коротко, материал интересен не только самой Sessa, но и способом объяснения. Он сводит Transformer, Mamba и новую архитектуру к общей схеме и показывает, где именно расходятся их свойства памяти. Для тех, кто следит за гонкой моделей длинного контекста, это важный сигнал: заметная альтернатива трансформерам может прийти не из полного отказа от attention, а из его сочетания с более выразительной рекуррентной памятью.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…