Técnicas y métodos

Mecanismo de Atención

El mecanismo de atención es un componente de red neuronal que permite que un modelo asigne dinámicamente pesos a la relevancia de diferentes posiciones de entrada al calcular cada salida, permitiendo el procesamiento sensible al contexto sobre secuencias de longitud arbitraria.

El mecanismo de atención es un componente de red neuronal que permite que un modelo asigne dinámicamente diferentes pesos de importancia a diferentes posiciones en su secuencia de entrada al calcular cada elemento de su salida. En lugar de depender de una representación de cuello de botella de tamaño fijo de todo el contexto anterior, como deben hacerlo las redes neuronales recurrentes, la atención permite que el modelo acceda directamente y se enfoque en cualquier parte de la entrada en cualquier paso, independientemente de la distancia posicional.

En la formulación introducida por Vaswani et al. en 'Attention Is All You Need' (2017), cada operación de atención calcula tres proyecciones aprendidas de la entrada: Consultas (Q), Claves (K) y Valores (V). El producto de punto escalado de Q y K produce puntuaciones de atención brutas; una softmax convierte estos en una distribución de probabilidad sobre posiciones de entrada; la salida es una suma ponderada de los vectores V, concentrándose en las posiciones más relevantes para la consulta actual. La atención multi-cabeza ejecuta este cálculo en paralelo en múltiples subespacios aprendidos y concatena los resultados, permitiendo que el modelo atienda simultáneamente a información desde diferentes perspectivas representacionales — estructura sintáctica en una cabeza, relaciones de coreferencia en otra, por ejemplo. Apilar muchas de estas capas de atención forma la arquitectura Transformer.

La atención resolvió el problema de dependencias a largo plazo que había limitado los modelos recurrentes: la longitud de la ruta de información entre dos posiciones cualesquiera es de O(1) operaciones en lugar de O(n), haciendo que sea sencillo para el modelo correlacionar tokens a miles de posiciones de distancia. La arquitectura también es totalmente paralelizable a través de la dimensión de secuencia durante el entrenamiento, a diferencia del cómputo recurrente, lo que permitió las ejecuciones de entrenamiento a gran escala que produjeron los modelos base modernos.

A partir de 2026, todos los principales modelos de lenguaje frontera — GPT-4o (OpenAI), Claude 3.x (Anthropic), Gemini 1.5 y 2.0 (Google), Llama 3 (Meta) y Mistral — se construyen sobre atención Transformer. Los esfuerzos de ingeniería se han enfocado en la eficiencia: Flash Attention (Dao et al., 2022) y sus sucesores redujeron los requisitos de ancho de banda de memoria en un orden de magnitud, permitiendo ventanas de contexto prácticas de 128K-1M tokens. La atención dispersa, la atención de ventana deslizante (usada en Mistral) y las arquitecturas híbridas atención-SSM como Mamba y Jamba representan direcciones de investigación activas que buscan extender el rendimiento y la longitud del contexto más allá de lo que permite la auto-atención densa.

Ejemplo

Cuando un LLM interpreta la oración 'The trophy did not fit in the suitcase because it was too big,' el mecanismo de atención asigna pesos altos a 'trophy' al resolver el pronombre 'it,' infiriendo correctamente que el trofeo — no la maleta — es lo que era demasiado grande.

Términos relacionados

Transformer KV-Cache Ventana de Contexto Arquitectura Codificador-Decodificador

← Glosario