Создатель AlphaGo основал компанию-единорог для построения ИИ-суперучеников
Дэвид Сильвер — учёный, чья система AlphaGo в 2016 году впервые в истории победила чемпиона мира по го, — основал новую компанию с оценкой в миллиард долларов.

Дэвид Сильвер, учёный, создавший алгоритм AlphaGo, который в 2016 году впервые в истории победил чемпиона мира по го, объявил об основании новой компании с оценкой около миллиарда долларов. Её цель — построить то, что Сильвер называет суперучениками: системы ИИ, способные самостоятельно осваивать сложнейшие области знаний, не опираясь на массивы данных, созданных людьми. Это прямой вызов доминирующей парадигме индустрии, в которой все крупнейшие игроки делают ставку на масштабирование языковых моделей.
Сильвер — один из ключевых архитекторов современного ИИ, и его биография говорит сама за себя. Его работа в Google DeepMind привела к появлению AlphaGo, а затем AlphaZero — алгоритма, который с нуля освоил шахматы, сёги и го, не видя ни одной человеческой партии. Вместо обучения на готовых примерах система самостоятельно генерировала и анализировала миллионы позиций, открывая стратегии, которые профессиональные игроки описывали как нечеловеческие.
Именно этот опыт формирует его убеждение в том, каким должен быть ИИ следующего поколения. Центральная идея Сильвера проста и радикальна одновременно: большие языковые модели — ChatGPT, Claude, Gemini и другие — принципиально ограничены тем, что учатся исключительно на текстах и данных, произведённых людьми. Это создаёт непреодолимый потолок: ИИ не может превзойти когнитивные возможности своих создателей, если питается только их знаниями и их заблуждениями.
Простое увеличение числа параметров и объёма обучающих данных, по его словам, не решает эту фундаментальную проблему — оно лишь масштабирует её. Альтернативой служит обучение с подкреплением (reinforcement learning, RL). В отличие от supervised learning, где модель учится воспроизводить правильные ответы из заранее размеченного датасета, RL позволяет агенту самостоятельно исследовать пространство возможностей: пробовать действия, получать сигнал вознаграждения и постепенно выстраивать стратегию.
Именно по этому принципу работал AlphaGo — и именно этот подход, убеждён Сильвер, открывает путь к ИИ, превосходящему человека в широком спектре задач, а не только в заранее оговорённых играх. У этой позиции есть серьёзные аргументы в пользу. OpenAI частично движется в этом направлении со своими рассуждающими моделями серии o, использующими элементы RL для самопроверки ответов.
Google DeepMind продолжает фундаментальные исследования в этой области. Тем не менее основная масса ресурсов индустрии сосредоточена на масштабировании языковых моделей, и именно против этого мейнстрима Сильвер занимает открыто контрарную позицию. Главная трудность RL — за пределами узких, чётко определённых задач.
Для шахмат функцию вознаграждения задать просто: выиграл — получил плюс. Для написания убедительного текста, принятия взвешенного бизнес-решения или проведения оригинального научного исследования функция вознаграждения неочевидна. Именно эту проблему невыразимого интеллекта (ineffable intelligence, в формулировке Сильвера) и предстоит решить новой компании.
Оценка в миллиард долларов без единого продукта на рынке говорит о весомости репутации основателя. В нынешнем инвестиционном климате, когда каждый ИИ-стартап претендует на историческую значимость, имя создателя AlphaGo — это одновременно готовый proof of concept и страховка для инвесторов, не готовых ждать годами. Если Сильвер окажется прав, следующая фаза гонки ИИ будет выглядеть принципиально иначе: меньше человеческих данных, больше автономного самообучения, меньше имитации — больше открытий.
Системы, способные самостоятельно формировать знания за пределами того, что знает человечество, — это и есть его суперученики. Воплотится ли идея в реальный продукт, покажет время. Но то, что один из главных архитекторов современного ИИ делает публичную ставку против доминирующей парадигмы, — само по себе значимый сигнал для всей отрасли.