ИИ от Google превзошел олимпийских чемпионов в математическом тесте FirstProof
Подразделение Google DeepMind совершило качественный скачок в области автоматического доказательства теорем. Новая модель ИИ установила рекорд в математическом

Математика всегда считалась последним бастионом человеческого интеллекта — областью, где интуиция, творческое мышление и строгая логика переплетаются настолько тесно, что воспроизвести этот процесс машиной казалось задачей почти философской. Однако команда Google DeepMind только что продемонстрировала, что этот бастион стремительно сдаёт позиции. Разработанная ими система искусственного интеллекта установила новый рекорд в тесте FirstProof — одном из наиболее строгих испытаний для автоматических доказывателей теорем, чьи задачи по уровню сложности сопоставимы с заданиями Международной математической олимпиады. Победители этих соревнований — элита мировой математики, цвет студенческой и школьной науки. Теперь у них появился конкурент, которому не нужен сон и который не знает математической тревоги перед чистым листом.
Чтобы оценить масштаб произошедшего, важно понять, чем FirstProof отличается от привычных академических тестов. Это не конкурс по угадыванию ответов и не соревнование в скорости арифметики. FirstProof требует от системы не просто назвать правильный результат, но и построить формально верифицированное доказательство — цепочку логических шагов, каждый из которых может быть проверен автоматически и не допускает никакой двусмысленности. Именно здесь большинство языковых моделей традиционно спотыкались: они умели рассуждать правдоподобно, но не безупречно. Разрыв между «почти правильно» и «математически доказано» в этой области огромен.
Ключевым техническим решением, обеспечившим прорыв, стала интеграция двух принципиально разных архитектурных подходов. Языковая модель — способная к гибкому, эвристическому мышлению — была соединена с системой формальной верификации, играющей роль непреклонного арбитра. Первая генерирует гипотезы, стратегии доказательства, промежуточные шаги. Вторая мгновенно отбраковывает логически несостоятельные цепочки. В результате получается нечто, напоминающее симбиоз творческого математика и придирчивого рецензента, которые работают в режиме реального времени. Подобный подход прорабатывался исследователями давно, однако именно DeepMind удалось найти масштаб и архитектуру, при которых две системы начали усиливать, а не тормозить друг друга.
Значение этого достижения выходит далеко за пределы академических рейтингов. Автоматическое доказательство теорем — это фундаментальный инструмент, востребованный в самых разных областях. В программной инженерии формальная верификация позволяет математически гарантировать корректность кода — особенно критично это для систем управления самолётами, медицинскими устройствами или финансовой инфраструктурой. В криптографии она подтверждает надёжность протоколов безопасности. В чистой математике подобные системы могут помогать исследователям проверять сложные конструкции, на ручную верификацию которых уходят годы. До сих пор все эти применения упирались в одно ограничение: существующие инструменты требовали колоссальных экспертных усилий по «переводу» математических идей в формальный язык. ИИ, способный самостоятельно работать на этом уровне, меняет уравнение принципиально.
Для более широкой индустрии этот результат служит важным сигналом о направлении развития. После нескольких лет доминирования языковых моделей, умеющих убедительно писать и рассуждать, но нередко совершающих элементарные логические ошибки, исследователи всё настойчивее ищут гибридные архитектуры, где нейронные сети работают в связке с детерминированными верификаторами. Результат DeepMind подтверждает: этот путь работает, и работает впечатляюще. OpenAI, Anthropic и академические лаборатории по всему миру ведут схожие исследования, однако именно Google сегодня держит планку в наиболее формализованном из математических испытаний.
Разумеется, победа в бенчмарке не означает, что ИИ готов заменить математиков — даже олимпийского уровня. Постановка новых задач, выбор направления исследований, интуитивный прыжок к правильной гипотезе — всё это по-прежнему остаётся территорией человека. Но граница неуклонно смещается. То, что Google DeepMind продемонстрировала в FirstProof, — это не имитация математического мышления, а его функциональный эквивалент в строго очерченных условиях. И по мере того как эти условия будут расширяться, вопрос сместится с «может ли ИИ доказывать теоремы» к «какие теоремы ИИ докажет первым».