Архитектура энкодер-декодер
Архитектура энкодер-декодер — структура нейронной сети, в которой компонент-энкодер сжимает входную последовательность в латентное представление, а декодер разворачивает его в выходную последовательность другой длины или модальности.
Архитектура энкодер-декодер разделяет задачу преобразования последовательностей на два этапа: энкодер читает весь вход и формирует компактное контекстное представление, декодер генерирует выход шаг за шагом, опираясь на это представление. Впервые систематически применена в seq2seq-моделях (Sutskever et al., Google, 2014) для машинного перевода на базе LSTM.
В классической реализации LSTM-энкодер кодирует входное предложение в вектор фиксированного размера («узкое горлышко»), а декодер разворачивает его в перевод. Механизм внимания (Bahdanau attention, 2015) устранил это ограничение: декодер на каждом шаге взвешенно обращается ко всем выходам энкодера. Оригинальный Transformer (Vaswani et al., 2017) реализовал ту же идею через self-attention и cross-attention: энкодер строит контекстуализированные представления всех входных токенов, декодер использует cross-attention к ним при каждом шаге авторегрессивной генерации.
Архитектура естественна для задач, где вход и выход различаются по длине и структуре: машинный перевод, суммаризация, вопросно-ответные системы, генерация кода из описания, преобразование текста в изображение. Разделение фаз понимания и генерации позволяет независимо оптимизировать каждый компонент и использовать разные модальности на входе и выходе.
К 2026 году классические энкодер-декодер трансформеры (T5, BART, mT5) остаются стандартом для задач условной генерации: суммаризации, перефразирования, структурированного извлечения данных. В мультимодальных системах схема стала универсальной: CLIP кодирует текст и изображения в общее пространство, диффузионные модели (Stable Diffusion, DALL-E 3) используют трансформерный энкодер для обработки текстового условия. Производственные системы автоматического перевода Google, DeepL и Microsoft продолжают применять энкодер-декодер трансформеры.