Habr AI→ оригинал

Le ChatGPT 5.4 d'OpenAI a surpassé Claude Opus 4.6 et Gemini 3.1 Pro dans une comparaison sur Habr

Habr a comparé Gemini 3.1 Pro, ChatGPT 5.4 et Claude Opus 4.6 dans quatre scénarios du quotidien : génération de texte, résumé de PDF, mathématiques et programm

Le ChatGPT 5.4 d'OpenAI a surpassé Claude Opus 4.6 et Gemini 3.1 Pro dans une comparaison sur Habr
Источник: Habr AI. Коллаж: Hamidun News.

На Habr вышел большой практический разбор трёх флагманских моделей: Gemini 3.1 Pro, ChatGPT 5.4 и Claude Opus 4.6. Автор проверил не абстрактные бенчмарки, а обычные повседневные задачи — от написания рассказа и сжатия PDF до математики и Python-приложения — и по сумме баллов неожиданно вывел в лидеры ChatGPT.

Как сравнивали В тесте участвовали четыре сценария, с которыми

пользователи реально приходят к нейросетям каждый день. Сначала моделям предложили написать юмористический фэнтези-рассказ в трёх главах. Затем им дали PDF с практической работой и попросили сделать сжатую, но пригодную для использования выжимку без потери ключевой информации.

После этого последовал блок из четырёх математических задач, а финальным испытанием стала разработка desktop-приложения на Python: инженерный калькулятор с GUI и встроенной игрой «Змейка». Логика оценки была максимально прикладной. Текстовые и кодовые задания автор оценивал по трёхбалльной шкале, а математический этап давал до четырёх баллов — по одному за каждую правильно решённую задачу.

Дополнительно он впервые вынес в таблицу стоимость каждого запроса в рублях. Благодаря этому сравнение получилось не только про качество ответа, но и про цену результата. Максимум в такой схеме — 13 баллов, и именно сочетание баллов с расходами стало главным критерием итогового выбора.

Кто выиграл этапы

На первом этапе ChatGPT слегка просел из-за сбоя с нумерацией глав и получил 2,5 балла, тогда как Gemini и Claude взяли максимум по 3 балла. Во втором раунде картина развернулась: ChatGPT лучше всех сжал PDF и сохранил важные детали, а Gemini и Claude, по мнению автора, сократили текст слишком агрессивно и потеряли часть нужной информации. Математический блок оказался ровным для всех троих, зато в программировании снова проявились нюансы уже не в теории, а в рабочем результате.

  • Генерация текста: Gemini 3.1 Pro — 3 балла за 20 рублей, Claude Opus 4.6 — 3 балла за 68 рублей, ChatGPT 5.4 — 2,5 балла за 25 рублей.
  • Сжатие PDF: ChatGPT 5.4 получил 3 балла за 24 рубля; Gemini 3.1 Pro и Claude Opus 4.6 взяли по 2 балла за 16 и 38 рублей соответственно.
  • Математика: все три модели решили задачи на максимум, но ChatGPT 5.4 оказался дешевле — 15 рублей против 22 у Gemini и 29 у Claude.
  • Программирование: ChatGPT 5.4 получил 3 балла за рабочий калькулятор и «Змейку», Gemini 3.1 Pro — 2,5 балла из-за неудачного захвата клавиш в игре, Claude Opus 4.6 — 2 балла из-за ошибки при делении с десятичными числами.
«Итог прозрачен — победил ChatGPT 5.4.»

Цена и компромиссы Итоговая таблица получилась показательной.

ChatGPT 5.4 набрал 11,5 балла и потратил 112 рублей. Gemini 3.

1 Pro закончил тест с 10,5 балла и общими расходами 87 рублей, то есть оказался самым экономичным вариантом. Claude Opus 4.6 получил 10 баллов, но стоил 208 рублей — почти вдвое дороже ChatGPT и более чем вдвое дороже Gemini.

Если смотреть только на цену, лидер здесь Google; если на баланс качества и расходов, преимущество у OpenAI. При этом сам разбор не претендует на универсальный академический бенчмарк. Автор прямо сравнивает модели в узком наборе бытовых задач и местами опирается на собственную редакторскую оценку, особенно там, где речь идёт о стиле текста или удобстве интерфейса.

Но именно поэтому материал и полезен: он показывает не лабораторные рекорды, а то, как модели ведут себя в практической работе. В этой выборке Gemini выглядит как рациональный бюджетный вариант, Claude — как дорогой и неровный, а ChatGPT — как наиболее стабильный компромисс.

Что это значит

Если выбирать одну модель под широкий набор повседневных задач, то по этому сравнению впереди ChatGPT 5.4: он не везде лучший, но чаще даёт самый ровный результат за вменяемые деньги. Gemini 3.1 Pro остаётся сильной альтернативой для тех, кто жёстко смотрит на бюджет, а Claude Opus 4.6 после такого теста выглядит менее выгодным выбором, чем раньше.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…