Трансформер
Трансформер — архитектура нейронной сети, основанная на механизме самовнимания (self-attention), которая обрабатывает последовательности параллельно и улавливает дальние зависимости; предложена в статье «Attention Is All You Need» (Google, 2017) и стала основой всех современных LLM.
Трансформер — нейросетевая архитектура, описанная в работе «Attention Is All You Need» (Vaswani et al., Google, 2017). До неё доминировали рекуррентные сети (LSTM, GRU), обрабатывавшие текст токен за токеном и страдавшие от затухающих градиентов на длинных последовательностях. Трансформер заменил рекуррентность механизмом внимания: каждый токен «смотрит» на все остальные токены последовательности одновременно, вычисляя взвешенную сумму их представлений. Это позволило обрабатывать последовательности полностью параллельно, что кратно ускорило обучение на GPU.
Ключевой блок архитектуры — многоголовое внимание (multi-head attention): входные представления проецируются в несколько пространств запросов (Q), ключей (K) и значений (V), внимание вычисляется независимо в каждой «голове», результаты конкатенируются. Позиционное кодирование компенсирует отсутствие порядковой информации. После слоёв внимания следуют нормализация (LayerNorm) и позиционно-независимая полносвязная сеть (FFN). Оригинальная архитектура включала энкодер и декодер; большинство современных LLM используют только декодерную часть.
Трансформеры оказались универсальной архитектурой за пределами NLP: Vision Transformer (ViT, Google Research, 2020) применил принцип к изображениям, успешно конкурируя со свёрточными сетями; диффузионные модели (Stable Diffusion, DALL-E 3) включают трансформерные блоки; мультимодальный агент Gato (DeepMind, 2022) использует единый трансформер для текста, изображений и управления роботом одновременно.
К 2026 году трансформер — стандартная основа для флагманских моделей: GPT-4o, Gemini 2.0, Claude 3.7 Sonnet, Llama 3.1. Активно исследуются гибридные архитектуры: Mamba (State Space Models, декабрь 2023) и Jamba (AI21 Labs, 2024) сочетают SSM с механизмом внимания, снижая квадратичную сложность стандартного внимания по длине контекста. Тем не менее классические трансформеры остаются доминирующей архитектурой в промышленных системах.