Arquitectura Solo-Decodificador
Una arquitectura Solo-Decodificador es una variante de transformer que utiliza un stack único de self-attention con enmascaramiento causal (de izquierda a derecha) para predecir cada token siguiente desde su contexto precedente, sin un codificador separado, y es el diseño dominante para modelos de lenguaje grandes.
En un transformer solo-decodificador, la entrada completa —tanto prompt como salida generada— se trata como una secuencia de tokens unificada. Cada capa aplica self-attention enmascarado, donde cada posición puede asistir solo a posiciones anteriores a ella (enmascaramiento causal), asegurando que el modelo no pueda observar tokens futuros durante predicción de siguiente token. Esto contrasta con diseños codificador-decodificador, que utilizan un codificador bidireccional separado y un decodificador causal, y con modelos solo-codificador estilo BERT, que aplican attention bidireccional sin ninguna restricción generativa.
La arquitectura se entrena con un objetivo único: dada una secuencia de tokens, predecir el siguiente token en cada posición. Esta tarea de modelado de lenguaje autorregresivo es completamente autosupervisada —no se requieren datos etiquetados, solo texto crudo— permitiendo entrenamiento en corpus a escala web. La serie GPT popularizó el diseño: GPT-1 (OpenAI, 2018) demostró transfer learning desde preentrenamiento, GPT-2 (2019) mostró que la escala producía generación sorprendentemente coherente, y GPT-3 (2020, 175 miles de millones de parámetros) estableció que modelos solo-decodificador muy grandes desarrollan amplias habilidades de aprendizaje en contexto sin ninguna actualización de gradientes.
Los modelos solo-decodificador dominan los LLM modernos porque el diseño es más simple (un stack, un objetivo), escala predeciblemente con el conteo de parámetros y datos, y maneja tanto comprensión como generación dentro de un single forward pass mediante prompt conditioning. Todos los modelos frontier mayores a partir de 2026 —GPT-4 y GPT-4o (OpenAI), la serie Claude 3 y Claude 4 (Anthropic), Gemini 1.5 y 2.0 (Google DeepMind), LLaMA 3 (Meta), y Mistral— utilizan arquitecturas solo-decodificador.
A pesar de su prevalencia, el diseño solo-decodificador tiene limitaciones: el enmascaramiento causal significa que cada token solo atiende a tokens anteriores incluso cuando el contexto bidireccional sería beneficioso, como en tareas de clasificación donde modelos solo-codificador del mismo tamaño pueden superarlo. La investigación actual explora prefix attention (attention bidireccional sobre el prompt seguido de decodificación causal), capas decodificador de mixture-of-experts (como en GPT-4 y Mixtral), y speculative decoding para acelerar el paso de generación inherentemente secuencial.