أطلقت OpenAI نموذج GPT-5.4 Pro: أرقام قياسية جديدة في ARC-AGI-2 وFrontierMath والمنطق
أطلقت OpenAI نموذج GPT-5.4 Pro وأظهرت قفزة ملحوظة مقارنة بالإصدار السابق. يسجل النموذج 83.3% في ARC-AGI-2 مقابل 54% لسابقه، ويحل مسائل FrontierMath، ويؤدي بشكل

OpenAI представила GPT-5.4 Pro — новую флагманскую версию, которая делает заметный шаг вперёд не только по сухим метрикам, но и по тому, как модель ведёт себя в сложных задачах. Если раньше приставка Pro часто воспринималась как более дорогой тариф, то здесь она уже выглядит как отдельный уровень качества.
Рывок в тестах Главная цифра из обзора — 83,3% в ARC-AGI-2 против 54% у предыдущей версии.
Для класса задач, где модели должны не угадывать шаблон, а действительно выводить правило из примеров, это очень резкий рост. Такой результат важен не сам по себе, а как сигнал: OpenAI усилила способность модели работать там, где ломаются поверхностные эвристики и где нужно удерживать структуру задачи до самого ответа. Не менее показателен прогресс в FrontierMath — наборе задач, который долго считался почти закрытой территорией для массовых ИИ-моделей. Если раньше подобные тесты использовались скорее как демонстрация границ, то теперь они всё чаще становятся способом сравнить, насколько хорошо модель умеет строить длинную цепочку рассуждений без потери шага. На этом фоне GPT-5.4 Pro выглядит не просто быстрее или удобнее, а заметно глубже по интеллектуальному профилю.
Проверка вне таблиц
Авторы обзора не ограничились бенчмарками и прогнали модель через более прикладные сценарии. Вместо абстрактных процентов они посмотрели, как GPT-5.4 Pro справляется с задачами, где нужно комбинировать логику, планирование и внимательность к деталям. Такой формат интереснее обычной таблицы, потому что показывает не один сильный навык, а поведение модели под нагрузкой, когда ошибка в середине цепочки ломает весь результат при первом же сбое.
- Логическая головоломка с серверами и зависимостями между узлами Задачи, где нужно удерживать несколько условий одновременно Сценарии с поиском неочевидного пути к решению * Полноценный стелс-симулятор на канвасе, где важны план и последовательность действий По описанию тестов, сильная сторона новой версии — не только правильный финальный ответ, но и устойчивость по ходу решения. Модель реже теряет контекст, лучше держит ограничения и не так быстро скатывается в случайные догадки, если задача выходит за рамки стандартных примеров из обучающего корпуса. Для пользователей это важнее рекордной цифры в рейтинге: именно так ощущается реальный прирост качества в ежедневной работе.
Что удивило в поведении
Один из самых показательных эпизодов в обзоре связан не с математикой, а с исследовательским поведением модели. В процессе решения GPT-5.4 Pro нашла в интернете забытую научную статью 2011 года и использовала её как короткий путь к ответу.
С одной стороны, это впечатляет: модель не просто перебирает заученные шаблоны, а умеет находить внешнюю опору там, где это действительно помогает. С другой — такой эпизод сразу поднимает вопрос о границах автономности и проверке найденных источников. Это важный сдвиг в самом типе взаимодействия с ИИ.
Пользователь всё чаще работает не с говорящей энциклопедией, а с системой, которая комбинирует рассуждение, поиск и адаптацию стратегии под задачу. Именно поэтому сравнение только по числу токенов или скорости ответа уже плохо объясняет реальную ценность модели. Ключевым становится другое: насколько надёжно она умеет думать, искать и не ломаться на нестандартном маршруте.
Что это значит
Планка для топовых моделей снова поднялась, и GPT-5.4 Pro показывает, что следующий этап конкуренции идёт уже не вокруг базовой связности текста, а вокруг глубины рассуждения и устойчивости в сложных сценариях. Для рынка это означает ускорение перехода от «умного чат-бота» к рабочему инструменту для анализа, математики, программирования и многошаговых задач, где раньше человеку всё ещё приходилось страховать модель почти на каждом шаге.