La geometría de attention: cómo QK Norm enseña al modelo a entender el significado
QK Norm en transformers no es solo estabilización. La normalización convierte el producto escalar en similitud coseno, obligando a la red a expresar el signific
Procesado por IA desde Habr AI; editado por Hamidun News
QK Norm — normalización de query y key antes del producto escalar en el mecanismo de atención — a menudo se percibe como un detalle técnico para la estabilidad numérica. En realidad, es una profunda restricción geométrica que obliga al transformer a expresar el significado de una forma completamente diferente.
Problema sin normalización
Las capas de red son perezosas. Cuando no hay normas, en lugar de rotar vectores de forma inteligente y expresar significado a través de relaciones angulares, el transformer toma el camino simple: aumenta la magnitud. Un token importante simplemente se vuelve más fuerte. Lo hace porque puede. El producto escalar q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) crece tanto por el ángulo como por la magnitud. La red aprende ambos: observa el ángulo e infla el vector. E inflar es más barato que entender. Esto lleva a "attention sink" — cuando los tokens gramaticales de función (comas, artículos, pronombres) comienzan a dominar porque ocurren frecuentemente y acumularán gran magnitud naturalmente.
Cómo funciona QK Norm
La normalización es una restricción. Cuando normalizamos query y key a longitud unitaria, el producto escalar se convierte en similitud de coseno. Los vectores quedan "atrapados" en una hiperesfera N-dimensional. Ahora la red no puede inflar el vector para atraer atención. Solo queda una opción: rotar el vector para que su ángulo con otros vectores exprese la relación semántica necesaria. Si necesitas una conexión entre palabras — muéstrala con un ángulo, no con volumen. Esto cambia fundamentalmente cómo funcionan las representaciones internas:
- El significado se codifica mediante ángulos entre vectores, no por su magnitud
- Todos los tokens están a igual distancia del origen
- Las palabras raras no se pierden porque en una hiperesfera todos son iguales
- La atención se basa en similitud semántica, no en frecuencia
Lugar correcto en la arquitectura
Un detalle crítico: QK Norm debe venir antes de RoPE (Rotary Position Embedding), no después. Si la normalización se aplica después de RoPE, la información posicional se desenfoca y no se codifica correctamente. Orden: normalizar query-key → después RoPE.
Qué significa esto
No es solo un truco de ingeniería para la estabilidad numérica — es una redefinición de lo que "atención" significa a nivel geométrico. Una red que se basa en ángulos en lugar de magnitudes aprende a generalizar mejor en tokens raros y evita el hábito de ser dominada por palabras de función. Sin resultados empíricos en modelos de miles de millones de parámetros, esto sigue siendo un argumento teórico, pero la lógica geométrica es sólida.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.