Как скалярное произведение из учебника алгебры стало фундаментом ChatGPT, Claude и Gemini
В 2017-м Google опубликовала «Attention is All You Need» — и нейросети никогда не стали прежними. Сегодня на трансформерах работают ChatGPT, Claude, Gemini…
AI-обработка оригинала Habr AI; редакция Hamidun News
В 2017 году группа инженеров Google опубликовала статью «Attention is All You Need» — и она тихо разделила историю искусственного интеллекта на «до» и «после». Без громких презентаций и человекоподобных роботов восемь исследователей описали архитектуру, которая сегодня лежит в основе ChatGPT, Claude, Gemini, Midjourney и практически всего современного генеративного ИИ. Самое удивительное — фундаментом этой революции оказалась одна из простейших операций линейной алгебры: скалярное произведение двух векторов.
Стена, в которую упёрлись нейросети
До трансформеров в обработке текста господствовали рекуррентные сети — RNN и LSTM. Они читали предложения последовательно: слово за словом, шаг за шагом. Проблема в том, что к концу длинного текста модель «забывала» начало — сигнал затухал по мере прохождения через сотни промежуточных шагов. Это называлось проблемой затухающих градиентов. Представьте: модель читает роман и к пятой главе уже не помнит имя главного героя. Именно в такую стену нейросети упёрлись к середине 2010-х. Архитектура плохо масштабировалась, параллельные вычисления были практически недоступны — каждый следующий шаг зависел от предыдущего. Нужно было что-то принципиально другое.
Почему скалярное произведение — это гениально просто
Скалярное произведение — операция из стандартного курса векторной алгебры. Берёшь два вектора, умножаешь их координаты попарно и складываешь все результаты. На выходе — одно число: чем оно больше, тем «похожее» или «роднее» векторы друг другу.
В механизме self-attention трансформера эта операция применяется следующим образом: Каждое слово превращается в три вектора: Query (запрос), Key (ключ) и Value (значение) Скалярное произведение Query одного слова на Key каждого другого показывает «силу связи» между парой слов Результаты масштабируются и нормируются через softmax — получаются веса внимания от 0 до 1 Финальный вектор слова — взвешенная сумма всех Value с учётом этих весов По сути, каждый токен одновременно задаёт вопрос всем остальным: «Насколько ты важен для моего понимания прямо сейчас?» — и получает точный числовой ответ. Это происходит параллельно для всего предложения, а не последовательно слово за словом.
Три свойства, которые изменили индустрию
Скалярное произведение оказалось идеальной операцией для языка сразу по нескольким причинам. Параллелизм. Все вычисления внимания можно выполнять одновременно — в отличие от RNN, где каждый шаг зависит от предыдущего. Это разблокировало GPU и TPU и позволило масштабировать модели до сотен миллиардов параметров. Именно так за несколько лет появились BERT, GPT-3, а затем GPT-4 и Claude. Глобальный контекст без затухания. Каждое слово сразу «видит» все остальные — независимо от расстояния в тексте. Местоимение «он» в конце длинного абзаца правильно привязывается к имени персонажа из самого начала. Никакого затухания сигнала через промежуточные слои. Интерпретируемость. Матрицы внимания можно визуализировать — буквально посмотреть, какое слово на что обращает внимание при обработке предложения. Это редкость в мире нейросетей, где большинство решений остаются чёрным ящиком.
«Нам не нужны рекуррентность и свёртки вообще», — написали авторы в 2017 году.
Для тогдашнего сообщества это звучало как ересь. Через три года стало аксиомой.
Что это значит
Трансформер доказал: революция в ИИ может прийти не из нейробиологии и не из философии сознания, а из учебника линейной алгебры второго курса. ChatGPT, Claude, Gemini, Midjourney — все они в своей основе перемножают матрицы скалярных произведений миллиарды раз в секунду. Простота операции и оказалась её главной силой: не усложнение, а правильный выбор элементарного инструмента изменил всё.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.