Decoder-only архитектура
Decoder-only архитектура — вариант трансформера, использующий только стек декодерных слоёв с маскированным (каузальным) вниманием, при котором каждый токен видит лишь предшествующие; основа подавляющего большинства современных больших языковых моделей.
Decoder-only архитектура — упрощение оригинального трансформера: из двухкомпонентной схемы (энкодер + декодер) оставлен лишь стек декодерных блоков с маскированным self-attention. В каждом слое токен на позиции i может обращаться только к токенам 0..i−1 (каузальная маска), что принудительно задаёт авторегрессивный режим: модель предсказывает следующий токен по всем предыдущим. Именно эта архитектура лежит в основе семейств GPT (OpenAI), Claude (Anthropic), Llama (Meta), Gemini (Google) и большинства современных LLM.
Во время инференса модель генерирует текст токен за токеном: на каждом шаге весь предшествующий контекст подаётся на вход, attention-слои вычисляют веса по нему, финальный линейный слой с softmax даёт распределение по словарю. Для ускорения используется KV-кэш: ключи и значения уже обработанных токенов сохраняются в памяти, устраняя повторные вычисления. Предобучение ведётся по задаче causal language modeling (CLM) — максимизация правдоподобия следующего токена, — что не требует размеченных данных и позволяет учиться на триллионах токенов.
Decoder-only архитектура оказалась неожиданно универсальной: несмотря на то что предобучение оптимизирует лишь предсказание следующего слова, достаточно большие модели демонстрируют способность к переводу, рассуждению, написанию кода и следованию инструкциям. Простота архитектуры облегчает масштабирование: выигрыши от увеличения числа параметров, данных и вычислений хорошо описываются законами масштабирования, систематизированными в работе Hoffmann et al. (DeepMind, 2022, «Chinchilla»).
К 2026 году decoder-only архитектура доминирует в пространстве LLM: GPT-4, Claude 3 и Claude 4, Llama 3, Gemini 1.5 и 2.0 — все они decoder-only трансформеры с контекстными окнами от 128K до 1M+ токенов. Основное узкое место — KV-кэш растёт линейно с длиной контекста и требует значительных объёмов видеопамяти. Для смягчения этого ограничения применяются grouped-query attention (GQA), multi-query attention (MQA), сжатие кэша и гибриды с SSM-блоками.