DeepSeek и GLM-5 обошли Яндекс в тесте 34 AI-моделей для менеджеров без VPN

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

30 апр. 2026 г.. Время чтения: 3 мин.

Большой тест 34 моделей на задачах менеджера показал, что без VPN в России лучше всего работают GLM-5, DeepSeek V3.2 и DeepSeek R1. Разрыв с глобальными…

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

30 апр. 2026 г.· 3 мин

AI-обработка оригинала Habr AI; редакция Hamidun News

DeepSeek и GLM-5 обошли Яндекс в тесте 34 AI-моделей для менеджеров без VPN — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

Авторы большого теста проверили 34 AI-модели на типичных задачах менеджера и отдельно посмотрели, чем можно пользоваться в России без VPN. Главный вывод получился неудобным для локальных игроков: лучше всего выступили китайские модели, а решения Яндекса оказались далеко не в лидерах.

Лидеры без VPN

Исследование построили не на абстрактных бенчмарках, а на 32 практических сценариях: от писем партнёрам и планов проектов до анализа отчётов, приоритизации, найма и адаптации под российский контекст. Все запросы задавали на русском и без промпт-инжиниринга, как это обычно делает обычный менеджер. Ответы оценивали две отдельные модели-судьи, а затем сводили результат в общий балл по шкале от 1 до 5. Такой подход должен был показать поведение моделей в обычной рабочей среде, а не в лаборатории.

GLM-5 — 4.50 балла, бесплатный чат и первое место в задачах по управлению командой DeepSeek V3.2 — 4.41 балла, бесплатный чат и очень дешёвый API DeepSeek R1 — 4.31 балла, сильнее в аналитике за счёт режима рассуждения * Mistral Large — 4.25 балла, крепкий вариант с чатом и API После обновления от 17 марта 2026 года в рейтинг добавили GLM-5 и убрали неверное допущение о доступности Grok без VPN. В актуальной версии статьи именно GLM-5 вышла на первое место среди доступных моделей, а DeepSeek V3.2 закрепилась как наиболее практичный вариант по соотношению качества, цены и доступности. Авторы отдельно подчёркивают, что разница между уровнями ощущается не на бумаге, а в работе: сильные модели дают ответы, которые можно использовать почти сразу.

Разрыв с глобальным топом

Чтобы понять реальный потолок качества, авторы сравнили доступные модели с теми, что в России заблокированы. В глобальном топе оказались Claude Sonnet 4.5, GPT-5.2 Pro и Claude Opus 4.5 со средним результатом около 4,78 балла. Лучшие доступные без VPN модели набрали в среднем 4,36. Это разница примерно в 0,4 балла: не пропасть, но переход из категории «отлично» в категорию «хорошо».

«Ответ “зависит от задачи” — честный, но бесполезный.»

Но разрыв распределён неравномерно. В планировании и решении проблем доступные модели почти догоняют мировой топ: отставание там всего 0,1–0,2 балла и на практике часто незаметно. Хуже ситуация в задачах обучения и развития сотрудников — например, когда нужно составить карьерный план, программу менторинга или рекомендации по росту. Здесь отставание доходит до половины балла, поэтому ответы приходится внимательнее перепроверять. Именно там проявляется разница в глубине рассуждений и адекватности советов.

Почему проиграл Яндекс Самый заметный провал исследования связан с Яндексом.

Лучшая модель компании, Alice AI LLM, получила 3,84 балла и попала лишь в третий эшелон, ниже DeepSeek, Mistral и даже MiMo v2 Flash от Xiaomi. Ещё показательнее результат в категории региональной специфики, где проверяли российское трудовое право, локальный комплаенс и культурный контекст. Там Alice набрала 3,68 против 4,56 у GPT-5.

2 и 4,34 у DeepSeek V3.2. Авторы объясняют это просто: для бизнес-задач аналитическая сила модели важнее, чем сам факт, что она обучалась на русском контенте.

Иными словами, хорошая глобальная модель, которая нормально работает с русским языком, может уверенно обойти «родную» модель с более слабым reasoning. При этом сами авторы признают, что у Яндекса иная методология внутренних сравнений, а в их собственных тестах Alice выигрывала у старых DeepSeek V3.1 и Qwen по части задач.

Но на наборе из 32 управленческих сценариев версия V3.2 оказалась сильнее Яндекса по всем восьми категориям.

Что это значит

Для русскоязычных команд рынок AI уже не сводится к выбору между западными лидерами и локальными продуктами. Если нужен рабочий инструмент без VPN, сейчас рациональнее смотреть в сторону DeepSeek и GLM-5: они не дотягивают до абсолютного топа, но уже закрывают большую часть повседневных задач менеджера. А обещание «лучше понимаем русский» само по себе больше не гарантирует лидерства. Для бизнеса это уже практический, а не теоретический выбор.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация