Habr AI→ оригинал

تفوق ChatGPT 5.4 من OpenAI على Claude Opus 4.6 وGemini 3.1 Pro في مقارنة على Habr

قارن Habr بين Gemini 3.1 Pro وChatGPT 5.4 وClaude Opus 4.6 في أربعة سيناريوهات يومية: توليد النصوص، تلخيص PDF، الرياضيات، والبرمجة بلغة Python. وفاز ChatGPT 5.4

تفوق ChatGPT 5.4 من OpenAI على Claude Opus 4.6 وGemini 3.1 Pro في مقارنة على Habr
Источник: Habr AI. Коллаж: Hamidun News.

На Habr вышел большой практический разбор трёх флагманских моделей: Gemini 3.1 Pro, ChatGPT 5.4 и Claude Opus 4.6. Автор проверил не абстрактные бенчмарки, а обычные повседневные задачи — от написания рассказа и сжатия PDF до математики и Python-приложения — и по сумме баллов неожиданно вывел в лидеры ChatGPT.

Как сравнивали В тесте участвовали четыре сценария, с которыми

пользователи реально приходят к нейросетям каждый день. Сначала моделям предложили написать юмористический фэнтези-рассказ в трёх главах. Затем им дали PDF с практической работой и попросили сделать сжатую, но пригодную для использования выжимку без потери ключевой информации.

После этого последовал блок из четырёх математических задач, а финальным испытанием стала разработка desktop-приложения на Python: инженерный калькулятор с GUI и встроенной игрой «Змейка». Логика оценки была максимально прикладной. Текстовые и кодовые задания автор оценивал по трёхбалльной шкале, а математический этап давал до четырёх баллов — по одному за каждую правильно решённую задачу.

Дополнительно он впервые вынес в таблицу стоимость каждого запроса в рублях. Благодаря этому сравнение получилось не только про качество ответа, но и про цену результата. Максимум в такой схеме — 13 баллов, и именно сочетание баллов с расходами стало главным критерием итогового выбора.

Кто выиграл этапы

На первом этапе ChatGPT слегка просел из-за сбоя с нумерацией глав и получил 2,5 балла, тогда как Gemini и Claude взяли максимум по 3 балла. Во втором раунде картина развернулась: ChatGPT лучше всех сжал PDF и сохранил важные детали, а Gemini и Claude, по мнению автора, сократили текст слишком агрессивно и потеряли часть нужной информации. Математический блок оказался ровным для всех троих, зато в программировании снова проявились нюансы уже не в теории, а в рабочем результате.

  • Генерация текста: Gemini 3.1 Pro — 3 балла за 20 рублей, Claude Opus 4.6 — 3 балла за 68 рублей, ChatGPT 5.4 — 2,5 балла за 25 рублей.
  • Сжатие PDF: ChatGPT 5.4 получил 3 балла за 24 рубля; Gemini 3.1 Pro и Claude Opus 4.6 взяли по 2 балла за 16 и 38 рублей соответственно.
  • Математика: все три модели решили задачи на максимум, но ChatGPT 5.4 оказался дешевле — 15 рублей против 22 у Gemini и 29 у Claude.
  • Программирование: ChatGPT 5.4 получил 3 балла за рабочий калькулятор и «Змейку», Gemini 3.1 Pro — 2,5 балла из-за неудачного захвата клавиш в игре, Claude Opus 4.6 — 2 балла из-за ошибки при делении с десятичными числами.
«Итог прозрачен — победил ChatGPT 5.4.»

Цена и компромиссы Итоговая таблица получилась показательной.

ChatGPT 5.4 набрал 11,5 балла и потратил 112 рублей. Gemini 3.

1 Pro закончил тест с 10,5 балла и общими расходами 87 рублей, то есть оказался самым экономичным вариантом. Claude Opus 4.6 получил 10 баллов, но стоил 208 рублей — почти вдвое дороже ChatGPT и более чем вдвое дороже Gemini.

Если смотреть только на цену, лидер здесь Google; если на баланс качества и расходов, преимущество у OpenAI. При этом сам разбор не претендует на универсальный академический бенчмарк. Автор прямо сравнивает модели в узком наборе бытовых задач и местами опирается на собственную редакторскую оценку, особенно там, где речь идёт о стиле текста или удобстве интерфейса.

Но именно поэтому материал и полезен: он показывает не лабораторные рекорды, а то, как модели ведут себя в практической работе. В этой выборке Gemini выглядит как рациональный бюджетный вариант, Claude — как дорогой и неровный, а ChatGPT — как наиболее стабильный компромисс.

Что это значит

Если выбирать одну модель под широкий набор повседневных задач, то по этому сравнению впереди ChatGPT 5.4: он не везде лучший, но чаще даёт самый ровный результат за вменяемые деньги. Gemini 3.1 Pro остаётся сильной альтернативой для тех, кто жёстко смотрит на бюджет, а Claude Opus 4.6 после такого теста выглядит менее выгодным выбором, чем раньше.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…