Un veterano de Microsoft ejecutó un transformer en un PDP-11 de 6 MHz con 64 KB de memoria
Dave Plummer, exdesarrollador de Microsoft, ejecutó un pequeño transformer llamado Attention 11 en la minicomputadora PDP-11. La máquina de los años 70, con un

Ветеран Microsoft Дэйв Пламмер показал, что трансформер можно не только объяснить на пальцах, но и буквально запустить на железе конца 1970-х. Его эксперимент с мини-ЭВМ PDP-11 на 6 МГц и 64 Кбайт ОЗУ сводит разговор об ИИ к приземлённой картине: обучение - это много арифметики, повторений и аккуратной оптимизации.
Старый компьютер, новая задача
Пламмер известен как разработчик, который в прошлом участвовал в создании важных компонентов Windows. В новом видео он взялся не за ностальгический трюк ради лайков, а за демонстрацию базового принципа современных моделей. В центре эксперимента - 47-летняя система PDP-11, то есть машина из эпохи, когда о больших языковых моделях никто даже не мечтал.
Контраст и делает проект убедительным: если урезанную версию трансформера можно обучить на таком устройстве, значит, ядро идеи куда проще, чем выглядит на фоне дата-центров и миллиардных бюджетов. На PDP-11 работала модель Attention 11, которую написал на ассемблере PDP-11 разработчик Дамьен Буре. Задача у неё была скромная только на первый взгляд: взять последовательность из восьми чисел и выдать её в обратном порядке.
Здесь важно не запомнить несколько примеров, а уловить правило, которое сработает на новых входных данных. Именно на этом Пламмер и делает акцент: даже в таком игрушечном сценарии модель должна научиться структуре, а не просто угадывать следующий ответ по шаблону.
Как ужали модель
Чтобы этот эксперимент вообще имел шанс сработать, разработчикам пришлось предельно сжать архитектуру. Attention 11 - это не мини-копия ChatGPT, а однослойный трансформер с одним механизмом внимания, доведённый до состояния инженерного минимализма. У модели всего 1216 параметров.
Вместо привычных для современных ИИ-проектов массивов памяти и ускорителей здесь использовались вычисления с фиксированной точкой, а прямой проход ужали до 8-битной точности. По сути, это учебный скелет трансформера, в котором оставили только самое необходимое для демонстрации самого процесса обучения. 1216 параметров вместо миллиардов вычисления с фиксированной точкой 8-битная точность для прямого прохода оптимизация почти каждого такта процессора * задача на выявление правила, а не на запоминание примеров Но даже с такими ограничениями результат оказался не декоративным.
Пламмер сообщил, что модель дошла до 100 % точности примерно за 350 шагов обучения. На системе PDP-11/44 с платой кэш-памяти это заняло около трёх с половиной минут. Для сравнения с современными GPU это, конечно, музейная скорость.
Но для 6-мегагерцевой машины с 64 Кбайт ОЗУ сам факт полноценного обучения важнее абсолютного времени: эксперимент доказывает, что принципы трансформеров не требуют магии, только ресурсов и хорошей инженерии.
Не магия, а математика
Главная цель этого проекта была не в том, чтобы найти полезную практическую замену современным моделям. Пламмер попытался показать более неприятную для романтиков вещь: в основании ИИ нет сакрального огня. Есть цикл из ошибок, корректировок и повторений, где веса постепенно подстраиваются под задачу. Поэтому его демонстрация работает как антидот против мистификации нейросетей. Она убирает слой маркетинга и оставляет голую механику, которую можно наблюдать почти покадрово.
«От угадывания к знанию».
Именно так Пламмер описывает момент, когда модель перестаёт спотыкаться и начинает стабильно применять найденное правило. В этом и заключается самый интересный эффект эксперимента: зритель видит не готовый умный ответ, а рождение способности через последовательные исправления. На фоне разговоров об AGI это звучит отрезвляюще. Современные системы впечатляют не потому, что нарушают законы вычислений, а потому, что тот же механизм запускается в колоссальном масштабе - на несравнимо больших данных, моделях и вычислительных кластерах.
Что это значит Эксперимент с PDP-11 не доказывает, что ChatGPT можно перенести на ретрокомпьютер.
Зато он очень наглядно показывает другое: базовые идеи трансформеров достаточно компактны, чтобы их можно было понять, воспроизвести и обучить даже на древнем железе. Для рынка это ещё один аргумент в пользу эффективных маленьких моделей и аккуратной оптимизации, особенно сейчас, когда стоимость вычислений становится отдельным конкурентным фактором.