Jiqizhixin (机器之心)→ оригинал

Google DeepMind берет серебро: ИИ решает олимпиадные задачи, но какой ценой?

Google DeepMind вывела ИИ на новый уровень математического мышления. Системы AlphaProof и AlphaGeometry 2 решили четыре задачи из шести на Международной математ

Google DeepMind берет серебро: ИИ решает олимпиадные задачи, но какой ценой?
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Пока весь мир спорит, научится ли ChatGPT когда-нибудь не ошибаться в рецептах пирогов, Google DeepMind решила замахнуться на святое — Международную математическую олимпиаду (IMO). Результаты AlphaProof и AlphaGeometry 2 заставили индустрию вздрогнуть: системы решили четыре задачи из шести, что соответствует уровню серебряного медалиста. Казалось бы, вот он, момент сингулярности, когда кремний окончательно победил углерод в чистой логике.

Но если присмотреться к деталям, триумф выглядит скорее как героическая победа над обстоятельствами, чем как легкая прогулка. Математика всегда была ахиллесовой пятой языковых моделей. Обычные LLM работают на вероятностях, предсказывая следующее слово, что в строгом мире доказательств ведет к неизбежным галлюцинациям.

Чтобы решить эту проблему, инженеры DeepMind пошли по пути гибридизации. AlphaProof объединяет в себе гибкость обучения с подкреплением и суровую дисциплину языка формальной верификации Lean. Это позволяет искусственному интеллекту не просто угадывать ответ, а писать код, который проверяет сам себя на каждом логическом шаге.

AlphaGeometry 2, в свою очередь, получила мощную инъекцию в виде модели Gemini, что позволило ей щелкать геометрические головоломки в десятки раз быстрее своего предшественника. Однако за блеском серебряной медали скрывается суровая реальность. Если живые участники олимпиады решали задачи в два сессионных захода по четыре с половиной часа, то искусственному интеллекту на некоторые доказательства потребовалось несколько дней непрерывных вычислений.

Это подчеркивает главную проблему современных систем: они чудовищно неэффективны по сравнению с человеческим мозгом. Мы видим классический пример срывания низко висящих плодов. Да, ИИ научился работать в жестких рамках формальных языков, но он все еще тратит колоссальные вычислительные ресурсы там, где талантливому подростку достаточно листа бумаги и пары часов раздумий.

Разрыв в энергоэффективности между биологическим и цифровым разумом остается колоссальным. Почему это важно именно сейчас? Мы наблюдаем фундаментальный сдвиг в стратегии разработки ИИ.

Индустрия осознала, что простое масштабирование данных больше не дает взрывного роста качества в действительно сложных задачах. Будущее за системами, которые умеют рассуждать и проверять свои выводы. Google фактически создает так называемую Систему 2 для ИИ — медленное, осознанное мышление, которое дополняет быструю и интуитивную Систему 1 обычных чат-ботов.

Это критически важно не только для чистой математики, но и для программирования, кибербезопасности и проектирования сложных инженерных систем, где любая ошибка ценой в один бит может привести к катастрофе. Тем не менее, Демис Хассабис и его команда честно признают: процесс обучения и работы этих моделей остается болезненным. Чтобы AlphaProof мог работать, задачи нужно переводить на язык Lean вручную — ИИ пока не умеет самостоятельно интерпретировать условия задач на естественном языке с достаточной точностью.

Мы получили мощный инструмент, который пока требует целой армии инженеров-переводчиков для своей работы. Это напоминает первые компьютеры, которые занимали целые залы и требовали перфокарт. Потенциал огромен, но до появления математика в кармане, способного совершать открытия в реальном времени, пройдут еще годы.

Главное: Google DeepMind доказала, что ИИ может справляться с высшей логикой без ошибок, но цена этой безошибочности пока запредельна. Сможет ли компания радикально ускорить мышление своих систем до конца года?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…