Habr AI→ original

La geometría de attention: cómo QK Norm enseña al modelo a entender el significado

QK Norm en transformers no es solo estabilización. La normalización convierte el producto escalar en similitud coseno, obligando a la red a expresar el signific

Procesado por IA desde Habr AI; editado por Hamidun News
La geometría de attention: cómo QK Norm enseña al modelo a entender el significado
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

QK Norm — normalización de query y key antes del producto escalar en el mecanismo de atención — a menudo se percibe como un detalle técnico para la estabilidad numérica. En realidad, es una profunda restricción geométrica que obliga al transformer a expresar el significado de una forma completamente diferente.

Problema sin normalización

Las capas de red son perezosas. Cuando no hay normas, en lugar de rotar vectores de forma inteligente y expresar significado a través de relaciones angulares, el transformer toma el camino simple: aumenta la magnitud. Un token importante simplemente se vuelve más fuerte. Lo hace porque puede. El producto escalar q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) crece tanto por el ángulo como por la magnitud. La red aprende ambos: observa el ángulo e infla el vector. E inflar es más barato que entender. Esto lleva a "attention sink" — cuando los tokens gramaticales de función (comas, artículos, pronombres) comienzan a dominar porque ocurren frecuentemente y acumularán gran magnitud naturalmente.

Cómo funciona QK Norm

La normalización es una restricción. Cuando normalizamos query y key a longitud unitaria, el producto escalar se convierte en similitud de coseno. Los vectores quedan "atrapados" en una hiperesfera N-dimensional. Ahora la red no puede inflar el vector para atraer atención. Solo queda una opción: rotar el vector para que su ángulo con otros vectores exprese la relación semántica necesaria. Si necesitas una conexión entre palabras — muéstrala con un ángulo, no con volumen. Esto cambia fundamentalmente cómo funcionan las representaciones internas:

  • El significado se codifica mediante ángulos entre vectores, no por su magnitud
  • Todos los tokens están a igual distancia del origen
  • Las palabras raras no se pierden porque en una hiperesfera todos son iguales
  • La atención se basa en similitud semántica, no en frecuencia

Lugar correcto en la arquitectura

Un detalle crítico: QK Norm debe venir antes de RoPE (Rotary Position Embedding), no después. Si la normalización se aplica después de RoPE, la información posicional se desenfoca y no se codifica correctamente. Orden: normalizar query-key → después RoPE.

Qué significa esto

No es solo un truco de ingeniería para la estabilidad numérica — es una redefinición de lo que "atención" significa a nivel geométrico. Una red que se basa en ángulos en lugar de magnitudes aprende a generalizar mejor en tokens raros y evita el hábito de ser dominada por palabras de función. Sin resultados empíricos en modelos de miles de millones de parámetros, esto sigue siendo un argumento teórico, pero la lógica geométrica es sólida.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…