Google DeepMind берет серебро: ИИ решает олимпиадные задачи, но какой ценой?
Google DeepMind вывела ИИ на новый уровень математического мышления. Системы AlphaProof и AlphaGeometry 2 решили четыре задачи из шести на Международной математ

Пока весь мир спорит, научится ли ChatGPT когда-нибудь не ошибаться в рецептах пирогов, Google DeepMind решила замахнуться на святое — Международную математическую олимпиаду (IMO). Результаты AlphaProof и AlphaGeometry 2 заставили индустрию вздрогнуть: системы решили четыре задачи из шести, что соответствует уровню серебряного медалиста. Казалось бы, вот он, момент сингулярности, когда кремний окончательно победил углерод в чистой логике.
Но если присмотреться к деталям, триумф выглядит скорее как героическая победа над обстоятельствами, чем как легкая прогулка. Математика всегда была ахиллесовой пятой языковых моделей. Обычные LLM работают на вероятностях, предсказывая следующее слово, что в строгом мире доказательств ведет к неизбежным галлюцинациям.
Чтобы решить эту проблему, инженеры DeepMind пошли по пути гибридизации. AlphaProof объединяет в себе гибкость обучения с подкреплением и суровую дисциплину языка формальной верификации Lean. Это позволяет искусственному интеллекту не просто угадывать ответ, а писать код, который проверяет сам себя на каждом логическом шаге.
AlphaGeometry 2, в свою очередь, получила мощную инъекцию в виде модели Gemini, что позволило ей щелкать геометрические головоломки в десятки раз быстрее своего предшественника. Однако за блеском серебряной медали скрывается суровая реальность. Если живые участники олимпиады решали задачи в два сессионных захода по четыре с половиной часа, то искусственному интеллекту на некоторые доказательства потребовалось несколько дней непрерывных вычислений.
Это подчеркивает главную проблему современных систем: они чудовищно неэффективны по сравнению с человеческим мозгом. Мы видим классический пример срывания низко висящих плодов. Да, ИИ научился работать в жестких рамках формальных языков, но он все еще тратит колоссальные вычислительные ресурсы там, где талантливому подростку достаточно листа бумаги и пары часов раздумий.
Разрыв в энергоэффективности между биологическим и цифровым разумом остается колоссальным. Почему это важно именно сейчас? Мы наблюдаем фундаментальный сдвиг в стратегии разработки ИИ.
Индустрия осознала, что простое масштабирование данных больше не дает взрывного роста качества в действительно сложных задачах. Будущее за системами, которые умеют рассуждать и проверять свои выводы. Google фактически создает так называемую Систему 2 для ИИ — медленное, осознанное мышление, которое дополняет быструю и интуитивную Систему 1 обычных чат-ботов.
Это критически важно не только для чистой математики, но и для программирования, кибербезопасности и проектирования сложных инженерных систем, где любая ошибка ценой в один бит может привести к катастрофе. Тем не менее, Демис Хассабис и его команда честно признают: процесс обучения и работы этих моделей остается болезненным. Чтобы AlphaProof мог работать, задачи нужно переводить на язык Lean вручную — ИИ пока не умеет самостоятельно интерпретировать условия задач на естественном языке с достаточной точностью.
Мы получили мощный инструмент, который пока требует целой армии инженеров-переводчиков для своей работы. Это напоминает первые компьютеры, которые занимали целые залы и требовали перфокарт. Потенциал огромен, но до появления математика в кармане, способного совершать открытия в реальном времени, пройдут еще годы.
Главное: Google DeepMind доказала, что ИИ может справляться с высшей логикой без ошибок, но цена этой безошибочности пока запредельна. Сможет ли компания радикально ускорить мышление своих систем до конца года?