Геометрия attention: как QK Norm учит модель понимать значение

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-17. Время чтения: 3 мин.

QK Norm в трансформерах — это не просто стабилизация. Нормализация приводит скалярное произведение к косинус-сходству, заставляя сеть выражать смысл через углы

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-05-17· 3 мин

Геометрия attention: как QK Norm учит модель понимать значение — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

QK Norm — нормализация query и key перед скалярным произведением в механизме attention — часто воспринимается как техническая мелочь для численной стабильности. На деле это глубокое геометрическое ограничение, которое заставляет трансформер выражать смысл совершенно иначе.

Проблема без нормализации Сетевые слои ленивы.

Когда нет норм, трансформер вместо того, чтобы ловко вращать векторы и выражать смысл угловыми отношениями, берёт простой путь: увеличивает величину. Важный токен просто становится громче. Делает он это потому, что может. Скалярное произведение q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) растёт как через угол, так и через величину. Сеть выучивает оба: смотрит на угол и раздувает вектор. А раздув дешевле, чем понимание. Это приводит к «attention sink» — когда грамматические служебные токены (запятые, артикли, местоимения) начинают доминировать, потому что они часто встречаются и наберут большую величину просто так.

Как работает QK Norm Нормализация — это ограничение.

Когда мы нормализуем query и key на единичную длину, скалярное произведение превращается в косинус-сходство. Вектора оказываются "заперты" на N-мерной гиперсфере. Теперь сеть не может раздувать вектор, чтобы привлечь внимание.

Остаётся только одно: вращать вектор так, чтобы его угол с другими векторами выражал нужное смысловое отношение. Если вам нужна связь между словами — покажите её углом, а не громкостью. Это принципиально меняет, как работают внутренние представления: Смысл кодируется углами между векторами, не их величиной Все токены находятся на одинаковом расстоянии от начала координат Редкие слова не теряются, потому что на гиперсфере все равны Внимание основано на семантическом подобии, а не на частотности ## Правильное место в архитектуре Одна критическая деталь: QK Norm должна стоять до RoPE (Rotary Position Embedding), не после.

Если норма применяется после RoPE, позиционная информация размывается и не кодируется корректно. Порядок: норма query-key → затем RoPE.

Что это значит

Это не просто инженерный трюк для численной устойчивости — это переопределение того, что означает "внимание" на геометрическом уровне. Сеть, которая полагается на углы вместо величин, учится лучше обобщать на редкие токены и избегает привычки доминировать служебным словам. Без эмпирических результатов на миллиардных моделях это остаётся теоретическим аргументом, но логика геометрически стройна.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация