Habr AI→ оригинал

Год спустя Qwen3 держит трон по цене/качеству — батл-тест моделей

Батл-тест LLM: Qwen3-235B из июля 2025 года вновь лидирует по цене/качеству. За год Gemini улучшился на 40 баллов, DeepSeek V4 Flash недооценён на 6 баллов, но

Год спустя Qwen3 держит трон по цене/качеству — батл-тест моделей
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Я собрал четыре LLM модели в один батч, чтобы проверить, правда ли маленькая Gemma обошла большую в кросс-сессионных тестах. Результаты оказались куда интереснее, чем ожидалось.

Очная ставка:

Gemma не сдвинула друг друга В честной очной ставке неожиданный результат кросс-сессионного теста развеялся: обе Gemma оказались вровень, разницы нет. Но это было только начало. DeepSeek V4 Flash, который я оценивал на 83 балла, на этот раз выдал 89 — ровно на 6 баллов выше. Модель оказалась недооценена, и это стало главной находкой батча. Переоценка одной модели может привести к недооценке всей иерархии. Поэтому честные очные ставки в одном контексте остаются эталоном.

Qwen держит трон уже год А вот

Qwen3-235B-A22B-2507 (выпуск 21 июля 2025) в очередной раз заняла первое место по цене/качеству. Это был июльский чекпойнт — почти ровно год назад. И он по-прежнему не сдвинул конкурентов. За этот год произошло многое. Gemini прыгнул с 57 до 97 баллов — рост на 40 пунктов. DeepSeek я перетестировал трижды, каждый раз с новыми результатами. Появились новые контендеры. Но Qwen? Просто держит трон.

  • Gemini: +40 баллов за год DeepSeek V4 Flash: недооценён на 6 баллов Qwen3: по-прежнему лучше по цене/качеству MiniMax: получил шумиху, в тестах солиден, но не революционен Восемь новых моделей июня: не переместили лидера ## Новые критерии и раскрутка MiniMax В обновление рейтинга добавили новый критерий — скорость генерации. Оказалось, что быстрота и качество не всегда идут рука об руку. Модель может быть быстрой, но медленнее в обучении на текущих данных, или наоборот. О MiniMax стоит сказать отдельно. Его правда хвалят все, и в плане возможностей он близок к Opus. Но вокруг него была очень активная раскрутка. В честном тесте он показывает результаты, достойные внимания, но не настолько революционные, чтобы переписать иерархию.

Что это значит

Если выбираете между качеством и ценой, Qwen3-235B остаётся лучшим выбором для большинства задач. Другие модели более специализированы: Gemini для мультимодальности, DeepSeek для экспериментов, MiniMax для тех, кто готов платить больше.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…