Modelos

Arquitectura Codificador-Decodificador

Una arquitectura Codificador-Decodificador es un diseño de red neuronal en el que un codificador mapea una entrada en una representación latente y un decodificador separado genera la secuencia de salida de esa representación, haciendo que sea bien adecuada para tareas como traducción y resumen.

En la formulación sequence-to-sequence original (Sutskever et al., 2014), el codificador es una RNN que lee la entrada completa y produce un vector de contexto fijo; el decodificador es una segunda RNN que genera la salida token a token, condicionada en ese vector. El mecanismo de attention (Bahdanau et al., 2015) generalizó esto permitiendo al decodificador asistir selectivamente a todos los estados ocultos del codificador en cada paso de decodificación, resolviendo el cuello de botella de información de un vector de contexto de tamaño fijo y mejorando sustancialmente el desempeño en secuencias largas.

El transformer (Vaswani et al., 2017) reformuló la estructura codificador-decodificador usando self-attention y cross-attention. El stack del codificador procesa la secuencia de entrada completa en paralelo, produciendo representaciones contextualizadas; el stack del decodificador genera tokens de salida de manera autorregresiva, usando self-attention causal sobre sus propias salidas anteriores y cross-attention sobre la salida del codificador. Este diseño escala eficientemente y sustenta modelos incluyendo T5 (Google, 2019), BART (Meta, 2019), y mT5 para configuraciones multilingües.

La arquitectura es particularmente bien adecuada para tareas donde entrada y salida son estructuralmente diferentes: traducción automática (idiomas fuente y destino), resumen abstractivo (artículo a resumen), reconocimiento de voz (Whisper de OpenAI utiliza un codificador CNN para audio y un decodificador transformer para texto), y descripción de imágenes (codificador visual, decodificador de texto). El codificador maneja la comprensión; el decodificador maneja la generación, y esta separación de responsabilidades es beneficiosa cuando los dos procesos requieren diferentes patrones de attention.

A partir de 2026, los modelos codificador-decodificador siguen siendo el estándar para tareas de predicción estructurada. Los modelos estilo T5 y sus sucesores multilingües se despliegan en Google Search, traducción de documentos, y pipelines de resumen. Sin embargo, para generación de lenguaje a escala de extremo abierto, los modelos solo-decodificador han tomado ampliamente el control porque son arquitecturalmente más simples de entrenar y escalar. Las técnicas de fine-tuning eficiente en parámetros frecuentemente acoplan un codificador congelado con una pequeña cabeza decodificadora para adaptación de bajo recursos.

Ejemplo

El backend neural de Google Translate utiliza un transformer codificador-decodificador que codifica una oración en español en representaciones contextualizadas y luego decodifica esas representaciones token a token al inglés.

Términos relacionados

Transformer Modelo de Embedding Arquitectura Solo-Decodificador

← Glosario