Habr AI→ оригинал

قارنت Habr AI بين Claude و Gemini و ChatGPT في النصوص والرياضيات والتحليل والإبداع

أطلقت Habr AI مقارنة لثلاث نماذج لغوية كبيرة رائدة—ChatGPT-5.4 و Claude Opus 4.6 و Gemini 3.1 Pro. التركيز ليس على الأوامر العادية، بل على مهام غير تقليدية تظهر

قارنت Habr AI بين Claude و Gemini و ChatGPT في النصوص والرياضيات والتحليل والإبداع
Источник: Habr AI. Коллаж: Hamidun News.

Habr AI опубликовал сравнение трех флагманских моделей — ChatGPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro. Вместо привычных тестов на «напиши рассказ» или «реши задачу» автор сместил акцент на нестандартные сценарии, где лучше видны реальные различия между системами.

Нестандартный формат теста

Главная идея материала — не искать абсолютного победителя, а проверить, как модели ведут себя вне самых заезженных демо. Когда LLM просят написать короткий текст, сгенерировать кодовый шаблон или решить школьный пример, они часто показывают похожий уровень. Но в более странных, пограничных или просто менее шаблонных задачах начинают проявляться стиль мышления, гибкость, устойчивость к неоднозначности и умение держать контекст без подсказок на каждом шаге.

Такой подход важен еще и потому, что пользователи все чаще применяют модели не для одной изолированной команды, а как интеллектуальный инструмент для работы. В реальной практике нужно не только «ответить правильно», но и понять скрытое требование, не сломаться на формулировке, не уйти в лишнюю болтовню и не потерять логику на середине рассуждения. Именно поэтому сравнение через необычные задания выглядит полезнее, чем очередной формальный бенчмарк.

Три флагманские модели В тесте участвуют

ChatGPT-5.4, Claude Opus 4.6 и Gemini 3.

1 Pro — три системы, которые обычно попадают в верхний сегмент обсуждений о качестве генерации. Сам по себе состав участников показывает, что речь идет не о нишевом эксперименте, а о сравнении актуальных флагманов, между которыми чаще всего выбирают продвинутые пользователи, редакторы, аналитики и команды, встроившие LLM в ежедневные процессы. Важно и то, что автор не пытается подать материал как финальный приговор рынку.

Скорее это попытка ответить на более практичный вопрос: где именно различия между лучшими моделями становятся заметны. В обычных задачах разрыв может быть небольшим, зато в сценариях с неоднозначностью, комбинированными требованиями и творческими ограничениями каждая модель показывает собственный почерк. Для читателя это полезнее сухого рейтинга, потому что помогает соотнести модель с конкретным типом работы.

На что смотрят

По описанию статьи, фокус смещен на четыре группы задач, которые ближе к реальному использованию, чем к показательной презентации. Речь идет не о проверке одной метрики, а о попытке увидеть, как модель переключается между разными типами мышления: от аккуратной редактуры и формальной логики до расчетов и свободной генерации идей. Такой набор позволяет оценить не одну узкую способность, а поведение системы в разных режимах — от точности до креативности.

  • Работа с текстом и качеством формулировок Математика и устойчивость к ошибкам в расчетах Аналитические задачи с несколькими условиями * Креативность в нетипичных и не до конца формализованных запросах Сильная сторона такого сравнения в том, что оно показывает не только уровень знаний модели, но и характер ее ответа. Одна система может быть аккуратнее в структуре, другая — смелее в идеях, третья — стабильнее в логике. Для пользователя это часто важнее абстрактного первого места, потому что выбор LLM зависит не от общего хайпа, а от того, что именно нужно делать: редактировать текст, проверять рассуждения, решать задачи или быстро искать нестандартные ходы.

Что это значит Сравнения вроде этого постепенно меняют сам способ разговора о LLM.

Вопрос уже не в том, «кто умнее вообще», а в том, какая модель лучше справляется с твоим реальным сценарием. Для рынка это признак зрелости: флагманы становятся достаточно сильными, чтобы их начали оценивать не по вау-эффекту, а по нюансам работы.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…