Модели

Архитектура энкодер-декодер

Архитектура энкодер-декодер — структура нейронной сети, в которой компонент-энкодер сжимает входную последовательность в латентное представление, а декодер разворачивает его в выходную последовательность другой длины или модальности.

Архитектура энкодер-декодер разделяет задачу преобразования последовательностей на два этапа: энкодер читает весь вход и формирует компактное контекстное представление, декодер генерирует выход шаг за шагом, опираясь на это представление. Впервые систематически применена в seq2seq-моделях (Sutskever et al., Google, 2014) для машинного перевода на базе LSTM.

В классической реализации LSTM-энкодер кодирует входное предложение в вектор фиксированного размера («узкое горлышко»), а декодер разворачивает его в перевод. Механизм внимания (Bahdanau attention, 2015) устранил это ограничение: декодер на каждом шаге взвешенно обращается ко всем выходам энкодера. Оригинальный Transformer (Vaswani et al., 2017) реализовал ту же идею через self-attention и cross-attention: энкодер строит контекстуализированные представления всех входных токенов, декодер использует cross-attention к ним при каждом шаге авторегрессивной генерации.

Архитектура естественна для задач, где вход и выход различаются по длине и структуре: машинный перевод, суммаризация, вопросно-ответные системы, генерация кода из описания, преобразование текста в изображение. Разделение фаз понимания и генерации позволяет независимо оптимизировать каждый компонент и использовать разные модальности на входе и выходе.

К 2026 году классические энкодер-декодер трансформеры (T5, BART, mT5) остаются стандартом для задач условной генерации: суммаризации, перефразирования, структурированного извлечения данных. В мультимодальных системах схема стала универсальной: CLIP кодирует текст и изображения в общее пространство, диффузионные модели (Stable Diffusion, DALL-E 3) используют трансформерный энкодер для обработки текстового условия. Производственные системы автоматического перевода Google, DeepL и Microsoft продолжают применять энкодер-декодер трансформеры.

Пример

При автоматическом реферировании научных статей модель T5 читает полный текст через энкодер, формируя контекстуализированное представление каждого абзаца, а декодер генерирует резюме объёмом 200–300 слов, на каждом шаге обращаясь ко всему документу через механизм cross-attention.

Связанные термины

← Глоссарий