Wired→ оригинал

مؤسس AlphaGo أسس شركة يونيكورن لبناء متعلمي ذكاء اصطناعي فائقين

ديفيد سيلفر، العالم الذي كان نظامه AlphaGo أول نظام يهزم بطل العالم في لعبة جو عام 2016، أسس شركة جديدة بتقييم مليار دولار. الهدف: إنشاء "متعلمين فائقين"—ذكاء ا

مؤسس AlphaGo أسس شركة يونيكورن لبناء متعلمي ذكاء اصطناعي فائقين
Источник: Wired. Коллаж: Hamidun News.

Дэвид Сильвер, учёный, создавший алгоритм AlphaGo, который в 2016 году впервые в истории победил чемпиона мира по го, объявил об основании новой компании с оценкой около миллиарда долларов. Её цель — построить то, что Сильвер называет суперучениками: системы ИИ, способные самостоятельно осваивать сложнейшие области знаний, не опираясь на массивы данных, созданных людьми. Это прямой вызов доминирующей парадигме индустрии, в которой все крупнейшие игроки делают ставку на масштабирование языковых моделей.

Сильвер — один из ключевых архитекторов современного ИИ, и его биография говорит сама за себя. Его работа в Google DeepMind привела к появлению AlphaGo, а затем AlphaZero — алгоритма, который с нуля освоил шахматы, сёги и го, не видя ни одной человеческой партии. Вместо обучения на готовых примерах система самостоятельно генерировала и анализировала миллионы позиций, открывая стратегии, которые профессиональные игроки описывали как нечеловеческие.

Именно этот опыт формирует его убеждение в том, каким должен быть ИИ следующего поколения. Центральная идея Сильвера проста и радикальна одновременно: большие языковые модели — ChatGPT, Claude, Gemini и другие — принципиально ограничены тем, что учатся исключительно на текстах и данных, произведённых людьми. Это создаёт непреодолимый потолок: ИИ не может превзойти когнитивные возможности своих создателей, если питается только их знаниями и их заблуждениями.

Простое увеличение числа параметров и объёма обучающих данных, по его словам, не решает эту фундаментальную проблему — оно лишь масштабирует её. Альтернативой служит обучение с подкреплением (reinforcement learning, RL). В отличие от supervised learning, где модель учится воспроизводить правильные ответы из заранее размеченного датасета, RL позволяет агенту самостоятельно исследовать пространство возможностей: пробовать действия, получать сигнал вознаграждения и постепенно выстраивать стратегию.

Именно по этому принципу работал AlphaGo — и именно этот подход, убеждён Сильвер, открывает путь к ИИ, превосходящему человека в широком спектре задач, а не только в заранее оговорённых играх. У этой позиции есть серьёзные аргументы в пользу. OpenAI частично движется в этом направлении со своими рассуждающими моделями серии o, использующими элементы RL для самопроверки ответов.

Google DeepMind продолжает фундаментальные исследования в этой области. Тем не менее основная масса ресурсов индустрии сосредоточена на масштабировании языковых моделей, и именно против этого мейнстрима Сильвер занимает открыто контрарную позицию. Главная трудность RL — за пределами узких, чётко определённых задач.

Для шахмат функцию вознаграждения задать просто: выиграл — получил плюс. Для написания убедительного текста, принятия взвешенного бизнес-решения или проведения оригинального научного исследования функция вознаграждения неочевидна. Именно эту проблему невыразимого интеллекта (ineffable intelligence, в формулировке Сильвера) и предстоит решить новой компании.

Оценка в миллиард долларов без единого продукта на рынке говорит о весомости репутации основателя. В нынешнем инвестиционном климате, когда каждый ИИ-стартап претендует на историческую значимость, имя создателя AlphaGo — это одновременно готовый proof of concept и страховка для инвесторов, не готовых ждать годами. Если Сильвер окажется прав, следующая фаза гонки ИИ будет выглядеть принципиально иначе: меньше человеческих данных, больше автономного самообучения, меньше имитации — больше открытий.

Системы, способные самостоятельно формировать знания за пределами того, что знает человечество, — это и есть его суперученики. Воплотится ли идея в реальный продукт, покажет время. Но то, что один из главных архитекторов современного ИИ делает публичную ставку против доминирующей парадигмы, — само по себе значимый сигнал для всей отрасли.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…