Habr AI→ оригинал

Qwen 3.6 Plus outperforms DeepSeek V4 Pro in Russian benchmark, proves more cost-effective

In the Russian language benchmark, the new DeepSeek V4 Pro fell short of the expected Tier S: 89 points versus 92 for Qwen 3.6 Plus. The economics are even more

Qwen 3.6 Plus outperforms DeepSeek V4 Pro in Russian benchmark, proves more cost-effective
Источник: Habr AI. Коллаж: Hamidun News.

Свежий battle test шести апрельских LLM на русском контенте принёс неожиданный результат: новый флагман DeepSeek V4 Pro не стал лидером. Лучше него выступил Qwen 3.6 Plus, который вышел раньше и стоит дешевле.

Кто оказался впереди От DeepSeek V4 Pro ждали результата уровня Tier S — выше 95 баллов из 100.

Ожидания были логичными: модель большая, свежая, с сильными результатами на AIME и SWE-bench и с упором на reasoning-архитектуру. Но в практическом тесте на русском контенте она набрала 89 баллов. Это высокий результат, но не тот, который обычно ждут от релиза с заявкой на флагманский статус именно для рынка. Ещё интереснее смотрится сравнение внутри самой линейки DeepSeek. Версия Flash получила 83 балла, то есть отстала от Pro всего на 6 пунктов. На этом фоне повторный запуск Qwen 3.6 Plus, вышедшего на 22 дня раньше, дал 92 балла. В итоге более старая модель обошла новейший релиз DeepSeek не только по качеству текста, но и по общей полезности для реальных задач на русском языке.

Цена против качества Главный сюрприз не только в баллах, но и в экономике.

Если Pro превосходит Flash лишь на несколько пунктов, а стоит в 13 раз дороже, решение для продакшена уже не выглядит очевидным. Для команд, которые генерируют большие объёмы контента, эта разница быстро превращается в заметную статью расходов. В таком сценарии важен не абсолютный рекорд в тесте, а то, сколько полезного результата модель даёт на каждый потраченный доллар.

В обновлённой методологии автор сравнения делает акцент именно на этом и предлагает смотреть на модели через score-per-dollar. Такой подход меняет выводы сильнее, чем обычный рейтинг по сырым баллам. Модель может немного уступать по качеству, но выигрывать в реальном использовании за счёт цены, скорости и более предсказуемого поведения на длинных ответах.

Для редакций и продуктовых команд это намного полезнее, чем слепо платить за самый дорогой вариант.

  • DeepSeek V4 Pro — 89 баллов при ожидании Tier S DeepSeek Flash — 83 балла и заметно более мягкая экономика Qwen 3.6 Plus — 92 балла и лидерство в сравнении Разница между Pro и Flash — 6 пунктов при 13-кратной разнице в цене Ключевой показатель для выбора — не только score, но и score-per-dollar ## Почему reasoning не спас Одна из главных гипотез после теста — оптимизация под reasoning не гарантирует сильный narrative-результат. Метрики вроде AIME и SWE-bench хорошо показывают способности модели в математике, коде и структурном рассуждении, но хуже предсказывают, как она будет писать живой, связный и убедительный текст на русском. Для контентных задач важны ритм, точность формулировок, чувство структуры и работа с нюансами языка, а не только способность правильно разложить задачу по шагам. На этом фоне обновления методологии выглядят не формальностью, а попыткой честнее приблизить тест к продакшену. Среди изменений — настройка max_tokens, платный re-test и более жёсткая оценка практической ценности ответа. Иначе говоря, сравниваются уже не просто “умные” модели, а модели, которые должны стабильно решать конкретную редакционную задачу в заданном бюджете. Именно в таких условиях и выяснилось, что новизна релиза сама по себе больше не является преимуществом.

Что это значит Рынок LLM всё меньше похож на гонку «кто новее, тот лучше».

Для русскоязычных контентных задач выигрывает не самая громкая модель, а та, что лучше держит качество текста и окупается в продакшене. Для команд это сигнал чаще перепроверять свежие флагманы на собственных сценариях, а не выбирать их только по benchmark-заголовкам.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…