Habr AI→ original

A geometria da attention: como QK Norm ensina o modelo a entender o significado

QK Norm em transformers não é apenas estabilização. A normalização transforma o produto escalar em similaridade de cosseno, forçando a rede a expressar signific

Processado por IA de Habr AI; editado por Hamidun News
A geometria da attention: como QK Norm ensina o modelo a entender o significado
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

QK Norm — normalização de query e key antes do produto escalar no mecanismo de atenção — é frequentemente percebida como um detalhe técnico para estabilidade numérica. Na realidade, é uma profunda restrição geométrica que força o transformer a expressar significado de forma completamente diferente.

Problema sem normalização

Camadas de rede são preguiçosas. Quando não há normas, em vez de girar vetores de forma inteligente e expressar significado através de relações angulares, o transformer segue o caminho simples: aumenta a magnitude. Um token importante simplesmente fica mais alto. Faz isso porque pode. O produto escalar q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) cresce tanto pelo ângulo quanto pela magnitude. A rede aprende ambos: observa o ângulo e infla o vetor. E inflar é mais barato que entender. Isso leva ao "attention sink" — quando tokens gramaticais de função (vírgulas, artigos, pronomes) começam a dominar porque ocorrem frequentemente e acumularão grande magnitude naturalmente.

Como QK Norm funciona

Normalização é uma restrição. Quando normalizamos query e key para comprimento unitário, o produto escalar torna-se semelhança de cosseno. Vetores são "trancados" em uma hiperesfera N-dimensional. Agora a rede não pode inflar o vetor para atrair atenção. Resta apenas uma opção: girar o vetor para que seu ângulo com outros vetores expresse a relação semântica necessária. Se você precisa de uma conexão entre palavras — mostre-a com um ângulo, não com volume. Isso muda fundamentalmente como as representações internas funcionam:

  • Significado é codificado pelos ângulos entre vetores, não por sua magnitude
  • Todos os tokens estão à mesma distância da origem
  • Palavras raras não são perdidas porque em uma hiperesfera todos são iguais
  • Atenção é baseada em semelhança semântica, não frequência

Lugar correto na arquitetura

Um detalhe crítico: QK Norm deve vir antes de RoPE (Rotary Position Embedding), não depois. Se a normalização for aplicada depois de RoPE, a informação posicional fica borrada e não é codificada corretamente. Ordem: normalizar query-key → depois RoPE.

O que isso significa

Não é apenas um truque de engenharia para estabilidade numérica — é uma redefinição do que "atenção" significa no nível geométrico. Uma rede que depende de ângulos em vez de magnitudes aprende a generalizar melhor em tokens raros e evita o hábito de ser dominada por palavras de função. Sem resultados empíricos em modelos de bilhões de parâmetros, isso permanece um argumento teórico, mas a lógica geométrica é sólida.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…