Habr AI→ оригинал

Геометрия attention: как QK Norm учит модель понимать значение

QK Norm в трансформерах — это не просто стабилизация. Нормализация приводит скалярное произведение к косинус-сходству, заставляя сеть выражать смысл через углы

Геометрия attention: как QK Norm учит модель понимать значение
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

QK Norm — нормализация query и key перед скалярным произведением в механизме attention — часто воспринимается как техническая мелочь для численной стабильности. На деле это глубокое геометрическое ограничение, которое заставляет трансформер выражать смысл совершенно иначе.

Проблема без нормализации Сетевые слои ленивы.

Когда нет норм, трансформер вместо того, чтобы ловко вращать векторы и выражать смысл угловыми отношениями, берёт простой путь: увеличивает величину. Важный токен просто становится громче. Делает он это потому, что может. Скалярное произведение q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) растёт как через угол, так и через величину. Сеть выучивает оба: смотрит на угол и раздувает вектор. А раздув дешевле, чем понимание. Это приводит к «attention sink» — когда грамматические служебные токены (запятые, артикли, местоимения) начинают доминировать, потому что они часто встречаются и наберут большую величину просто так.

Как работает QK Norm Нормализация — это ограничение.

Когда мы нормализуем query и key на единичную длину, скалярное произведение превращается в косинус-сходство. Вектора оказываются "заперты" на N-мерной гиперсфере. Теперь сеть не может раздувать вектор, чтобы привлечь внимание.

Остаётся только одно: вращать вектор так, чтобы его угол с другими векторами выражал нужное смысловое отношение. Если вам нужна связь между словами — покажите её углом, а не громкостью. Это принципиально меняет, как работают внутренние представления: Смысл кодируется углами между векторами, не их величиной Все токены находятся на одинаковом расстоянии от начала координат Редкие слова не теряются, потому что на гиперсфере все равны Внимание основано на семантическом подобии, а не на частотности ## Правильное место в архитектуре Одна критическая деталь: QK Norm должна стоять до RoPE (Rotary Position Embedding), не после.

Если норма применяется после RoPE, позиционная информация размывается и не кодируется корректно. Порядок: норма query-key → затем RoPE.

Что это значит

Это не просто инженерный трюк для численной устойчивости — это переопределение того, что означает "внимание" на геометрическом уровне. Сеть, которая полагается на углы вместо величин, учится лучше обобщать на редкие токены и избегает привычки доминировать служебным словам. Без эмпирических результатов на миллиардных моделях это остаётся теоретическим аргументом, но логика геометрически стройна.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…