OpenAI GPT-5.4 a résolu un problème de FrontierMath qu'un mathématicien a mis 20 ans à élaborer
OpenAI GPT-5.4 a résolu un problème de FrontierMath que le mathématicien polonais Bartosz Naskręcki préparait depuis près de 20 ans et jugeait hors de portée de

OpenAI GPT-5.4 решил задачу из бенчмарка FrontierMath, которую польский математик Бартош Наскрэцки строил почти двадцать лет и считал практически недоступной для машин. Для самого автора это стало личным переломом: ещё недавно он называл ИИ «очень продвинутым калькулятором», а теперь говорит о новом уровне совместной работы с моделью.
Почему это всех удивило FrontierMath — один из самых жёстких математических бенчмарков для ИИ.
В нём 350 оригинальных задач по теории чисел, алгебраической геометрии, топологии, комбинаторике и анализу. Самый тяжёлый слой, Tier 4, состоит из 48 задач исследовательского уровня: даже сильному математику с PhD может потребоваться не меньше месяца, чтобы просто понять, с какой стороны к такой задаче подходить. Именно для таких случаев Наскрэцки и готовил свой пример — не учебный, а почти предельный по сложности.
Наскрэцки был одним из немногих европейских математиков, приглашённых составлять задачи для этого набора. Его задача выросла из примерно пятнадцати лет узкой исследовательской работы, а оформленное решение заняло 13 плотных страниц. Ответом было очень большое число, чтобы исключить случайное угадывание.
Поэтому неожиданностью стал не только сам правильный ответ GPT-5.4, но и способ, которым модель к нему пришла: вместо грубого перебора она заметила структуру и нашла более короткий путь. По словам автора, подход модели оказался «чистым и элегантным».
«Моя сингулярность только что случилась… и по ту сторону есть жизнь —
уходящая в бесконечность!»
Как быстро вырос результат
История важна не только из-за одной красивой задачи, но и из-за скорости прогресса. Когда FrontierMath запустили в конце 2024 года, лучшие модели решали меньше 2% задач. Через шестнадцать месяцев показатели выросли на порядок, причём не только на открытых примерах, но и на скрытом наборе, к которому у OpenAI не было прямого доступа. Это важно, потому что спор о «натаскивании на ответы» остаётся главным аргументом скептиков всякий раз, когда новая модель показывает сильный скачок в математике.
- Конец 2024: лучшие модели решают менее 2% задач FrontierMath.
- Середина 2025: GPT-5 Pro набирает 13% на Tier 4.
- Январь 2026: GPT-5.2 Pro поднимается до 31% на Tier 4.
- Март 2026: GPT-5.4 Pro выходит на 50% по уровням 1–3 и 38% по Tier 4. Отдельно выделяется результат на скрытых задачах. По данным статьи, GPT-5.4 решил 55% таких примеров против 25% задач, к которым OpenAI теоретически могла быть ближе по данным и решениям. Это не доказывает абсолютную «чистоту» эксперимента, но заметно усиливает версию, что модель действительно умеет рассуждать на новых задачах, а не просто воспроизводить увиденные шаблоны. Для исследовательских бенчмарков это, пожалуй, самый чувствительный тест: новизна важнее любой демонстрации на уже известных примерах.
Почему скепсис не исчез
При всей силе кейса история не сводится к формуле «машина уже думает как человек». В том же оценочном прогоне GPT-5.4 решила ещё одну задачу Tier 4, но предварительный разбор показал, что модель могла опереться на старый препринт 2011 года, о котором не знал сам автор задачи.
Это хороший пример того, как размывается граница между самостоятельным рассуждением и очень эффективным поиском по литературе, особенно если модель умеет работать с вебом и быстро собирать редкие источники. Есть и второй слой вопросов — независимость самого бенчмарка. FrontierMath финансируется OpenAI, а компания имеет доступ к значительной части задач и решений.
Скрытый набор, на котором GPT-5.4 тоже показал сильный результат, частично снимает напряжение, но не убирает конфликт интересов полностью. Поэтому эту историю разумно читать в двух режимах сразу: как реальный сигнал о резком росте математических возможностей моделей и как напоминание, что отрасли всё ещё нужны независимые тесты, прозрачные методики и внешняя проверка громких результатов.
Что это значит Главный вывод не в том, что математиков пора заменять.
Скорее наоборот: история Наскрэцки показывает, что передовые модели начинают работать как исследовательский партнёр, который сокращает пространство поиска и предлагает неожиданные ходы. Для науки и прикладного R&D это серьёзный сдвиг: ИИ всё меньше похож на калькулятор и всё больше — на соавтора, чьи идеи уже нельзя игнорировать, но всё ещё нужно тщательно проверять.