A geometria da attention: como QK Norm ensina o modelo a entender o significado
QK Norm em transformers não é apenas estabilização. A normalização transforma o produto escalar em similaridade de cosseno, forçando a rede a expressar signific
Processado por IA de Habr AI; editado por Hamidun News
QK Norm — normalização de query e key antes do produto escalar no mecanismo de atenção — é frequentemente percebida como um detalhe técnico para estabilidade numérica. Na realidade, é uma profunda restrição geométrica que força o transformer a expressar significado de forma completamente diferente.
Problema sem normalização
Camadas de rede são preguiçosas. Quando não há normas, em vez de girar vetores de forma inteligente e expressar significado através de relações angulares, o transformer segue o caminho simples: aumenta a magnitude. Um token importante simplesmente fica mais alto. Faz isso porque pode. O produto escalar q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) cresce tanto pelo ângulo quanto pela magnitude. A rede aprende ambos: observa o ângulo e infla o vetor. E inflar é mais barato que entender. Isso leva ao "attention sink" — quando tokens gramaticais de função (vírgulas, artigos, pronomes) começam a dominar porque ocorrem frequentemente e acumularão grande magnitude naturalmente.
Como QK Norm funciona
Normalização é uma restrição. Quando normalizamos query e key para comprimento unitário, o produto escalar torna-se semelhança de cosseno. Vetores são "trancados" em uma hiperesfera N-dimensional. Agora a rede não pode inflar o vetor para atrair atenção. Resta apenas uma opção: girar o vetor para que seu ângulo com outros vetores expresse a relação semântica necessária. Se você precisa de uma conexão entre palavras — mostre-a com um ângulo, não com volume. Isso muda fundamentalmente como as representações internas funcionam:
- Significado é codificado pelos ângulos entre vetores, não por sua magnitude
- Todos os tokens estão à mesma distância da origem
- Palavras raras não são perdidas porque em uma hiperesfera todos são iguais
- Atenção é baseada em semelhança semântica, não frequência
Lugar correto na arquitetura
Um detalhe crítico: QK Norm deve vir antes de RoPE (Rotary Position Embedding), não depois. Se a normalização for aplicada depois de RoPE, a informação posicional fica borrada e não é codificada corretamente. Ordem: normalizar query-key → depois RoPE.
O que isso significa
Não é apenas um truque de engenharia para estabilidade numérica — é uma redefinição do que "atenção" significa no nível geométrico. Uma rede que depende de ângulos em vez de magnitudes aprende a generalizar melhor em tokens raros e evita o hábito de ser dominada por palavras de função. Sem resultados empíricos em modelos de bilhões de parâmetros, isso permanece um argumento teórico, mas a lógica geométrica é sólida.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.