Как скалярное произведение из учебника алгебры стало фундаментом ChatGPT, Claude и Gemini

В 2017-м Google опубликовала «Attention is All You Need» — и нейросети никогда не стали прежними. Сегодня на трансформерах работают ChatGPT, Claude, Gemini…

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

29 июн. 2026 г.· 2 мин

AI-обработка оригинала Habr AI; редакция Hamidun News

Как скалярное произведение из учебника алгебры стало фундаментом ChatGPT, Claude и Gemini — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

В 2017 году группа инженеров Google опубликовала статью «Attention is All You Need» — и она тихо разделила историю искусственного интеллекта на «до» и «после». Без громких презентаций и человекоподобных роботов восемь исследователей описали архитектуру, которая сегодня лежит в основе ChatGPT, Claude, Gemini, Midjourney и практически всего современного генеративного ИИ. Самое удивительное — фундаментом этой революции оказалась одна из простейших операций линейной алгебры: скалярное произведение двух векторов.

Стена, в которую упёрлись нейросети

До трансформеров в обработке текста господствовали рекуррентные сети — RNN и LSTM. Они читали предложения последовательно: слово за словом, шаг за шагом. Проблема в том, что к концу длинного текста модель «забывала» начало — сигнал затухал по мере прохождения через сотни промежуточных шагов. Это называлось проблемой затухающих градиентов. Представьте: модель читает роман и к пятой главе уже не помнит имя главного героя. Именно в такую стену нейросети упёрлись к середине 2010-х. Архитектура плохо масштабировалась, параллельные вычисления были практически недоступны — каждый следующий шаг зависел от предыдущего. Нужно было что-то принципиально другое.

Почему скалярное произведение — это гениально просто

Скалярное произведение — операция из стандартного курса векторной алгебры. Берёшь два вектора, умножаешь их координаты попарно и складываешь все результаты. На выходе — одно число: чем оно больше, тем «похожее» или «роднее» векторы друг другу.

В механизме self-attention трансформера эта операция применяется следующим образом: Каждое слово превращается в три вектора: Query (запрос), Key (ключ) и Value (значение) Скалярное произведение Query одного слова на Key каждого другого показывает «силу связи» между парой слов Результаты масштабируются и нормируются через softmax — получаются веса внимания от 0 до 1 Финальный вектор слова — взвешенная сумма всех Value с учётом этих весов По сути, каждый токен одновременно задаёт вопрос всем остальным: «Насколько ты важен для моего понимания прямо сейчас?» — и получает точный числовой ответ. Это происходит параллельно для всего предложения, а не последовательно слово за словом.

Три свойства, которые изменили индустрию

Скалярное произведение оказалось идеальной операцией для языка сразу по нескольким причинам. Параллелизм. Все вычисления внимания можно выполнять одновременно — в отличие от RNN, где каждый шаг зависит от предыдущего. Это разблокировало GPU и TPU и позволило масштабировать модели до сотен миллиардов параметров. Именно так за несколько лет появились BERT, GPT-3, а затем GPT-4 и Claude. Глобальный контекст без затухания. Каждое слово сразу «видит» все остальные — независимо от расстояния в тексте. Местоимение «он» в конце длинного абзаца правильно привязывается к имени персонажа из самого начала. Никакого затухания сигнала через промежуточные слои. Интерпретируемость. Матрицы внимания можно визуализировать — буквально посмотреть, какое слово на что обращает внимание при обработке предложения. Это редкость в мире нейросетей, где большинство решений остаются чёрным ящиком.

«Нам не нужны рекуррентность и свёртки вообще», — написали авторы в 2017 году.

Для тогдашнего сообщества это звучало как ересь. Через три года стало аксиомой.

Что это значит

Трансформер доказал: революция в ИИ может прийти не из нейробиологии и не из философии сознания, а из учебника линейной алгебры второго курса. ChatGPT, Claude, Gemini, Midjourney — все они в своей основе перемножают матрицы скалярных произведений миллиарды раз в секунду. Простота операции и оказалась её главной силой: не усложнение, а правильный выбор элементарного инструмента изменил всё.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.