Habr AI→ оригинал

DeepSeek V4 Pro vs Claude Sonnet 4.6 em 50 tarefas reais: onde economizar, onde está o risco

O DeepSeek V4 Pro provou ser 3-4 vezes mais barato que o Claude Sonnet 4.6, mas em um teste de 50 tarefas típicas para um desenvolvedor russo, ficou aquém em co

DeepSeek V4 Pro vs Claude Sonnet 4.6 em 50 tarefas reais: onde economizar, onde está o risco
Источник: Habr AI. Коллаж: Hamidun News.

Сравнение DeepSeek V4 Pro и Claude Sonnet 4.6 на 50 типовых задачах российского разработчика показало простую вещь: низкая цена за токен не гарантирует лучший выбор для продакшена. На базовых сценариях модели идут почти вровень, но на задачах с российской спецификой DeepSeek заметно чаще ошибается.

Что проверяли

Автор статьи сравнил модели не на академических бенчмарках, а на прикладных запросах, которые реально встречаются у локальных команд: поддержка клиентов, извлечение данных из документов, расчёты по нормам ТК и НК РФ, а также расшифровка профессиональных аббревиатур. Тестирование шло через обычные веб-интерфейсы: Claude Sonnet 4.6 — без adaptive thinking, DeepSeek V4 — в быстром режиме без deep thinking. Всего было 50 промптов, разбитых на четыре блока. В апреле 2026 года разница по цене выглядела очень агрессивно в пользу DeepSeek: $1.74 за миллион входных токенов и $3.48 за выходные против $3 и $15 у Sonnet 4.6. На реальной нагрузке это даёт примерно трёхкратную экономию, поэтому соблазн перейти на более дешёвую модель вполне понятен.

  • Классификация 20 тикетов поддержки по пяти категориям Извлечение полей из 15 документов с OCR-ошибками 10 задач на reasoning с нормами российского права и расчётами * 5 задач на локальную терминологию вроде ЭДО, УПД, ОФД и КИЗ ## Где паритет На простых сценариях разницы почти не оказалось. Обе модели без ошибок классифицировали тикеты поддержки, одинаково справлялись с типовыми вопросами про доставку, возврат, оплату и общие обращения. В базовом reasoning тоже был паритет: срок исковой давности, возврат аванса и кейс с увольнением на испытательном сроке обе системы разобрали корректно, пусть и с разными ссылками на нормы. Похожая картина была и в разборе обычных документов. Обе модели не путали ОГРНИП с ИНН, брали сумму из цифровой строки, если пропись содержала ошибку, и корректно вытаскивали дату из авансового отчёта. По оценке автора, если 80% нагрузки в компании состоят именно из таких задач, переход на DeepSeek действительно может сократить бюджет примерно на 75% без заметной просадки по качеству.
«Английские бенчмарки нам не помогут выбрать модель для российской задачи.»

Где ошибки дороги

Проблемы начались там, где нужен не общий интеллект, а знание локального контекста и аккуратность на пограничных кейсах. В тесте на расчёт зарплаты сотрудника с окладом 150 000 рублей Sonnet выдал правильные 130 500 рублей на руки, а DeepSeek — 110 550. По сути модель удержала 26,3% вместо стандартных 13%, вероятно смешав НДФЛ со страховыми взносами работодателя.

Для демонстрации это просто промах, а в автоматизированном пайплайне — потенциально сотни тысяч рублей ошибки в месяц. Ещё один сбой обнаружился в OCR-нормализации. Обе модели правильно прочитали сумму, ИНН и дату в счёте-фактуре со смешанными русскими и латинскими символами, но только Sonnet нормализовал номер документа до канонического вида.

DeepSeek оставил буквы O и l там, где должны быть цифры. Если такой номер потом сравнивается с базой 1С или ERP по точному совпадению, документ просто не найдётся, хотя остальные поля уже выглядят правильными. Самый неприятный тип ошибки DeepSeek показал в задаче про социальный вычет на обучение 25-летнего сына.

Модель начала ответ словом «ДА», а дальше сама же объяснила, почему по статье 219 НК РФ вычет не положен после 24 лет. Для человека противоречие заметно сразу, но для системы, которая парсит только первое слово, это уже неверный класс. Похожая проблема всплыла и в терминологии: Sonnet правильно раскрыл КИЗ как контрольный идентификационный знак, а DeepSeek выдумал вариант про «код идентификации запчасти».

В сумме Sonnet получил 92% против 88% на документах, 100% против 60% на задачах с российской правовой спецификой и 100% против 80% на локальных терминах.

Что это значит

Вывод практический: DeepSeek V4 Pro хорошо подходит для первой линии поддержки, шаблонных ответов, базовой классификации и MVP, где цена критична, а ошибка не приводит к финансовому или юридическому действию. Но если модель участвует в расчётах денег, интерпретации норм НК и ТК РФ, нормализации документов или выдаёт ответы, которые напрямую парсятся системой, переплата за Claude Sonnet 4.6 выглядит как страховка от более дорогих последствий. Выбирать между ними стоит не по бенчмаркам, а по 30–50 своим реальным запросам.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…