DeepSeek V4 Pro vs Claude Sonnet 4.6 em 50 tarefas reais: onde economizar, onde está o risco
O DeepSeek V4 Pro provou ser 3-4 vezes mais barato que o Claude Sonnet 4.6, mas em um teste de 50 tarefas típicas para um desenvolvedor russo, ficou aquém em…
Processado por IA de Habr AI; editado por Hamidun News
Uma comparação entre DeepSeek V4 Pro e Claude Sonnet 4.6 em 50 tarefas típicas de um desenvolvedor russo mostrou uma coisa simples: preço baixo por token não garante a melhor escolha para produção. Em cenários básicos, os modelos se desempenham quase igualmente, mas em tarefas com especificações russas, DeepSeek erra notavelmente mais frequentemente.
O que foi testado
O autor do artigo comparou os modelos não em benchmarks acadêmicos, mas em solicitações práticas que realmente ocorrem em equipes locais: suporte ao cliente, extração de dados de documentos, cálculos de acordo com normas do Código do Trabalho e do Código Tributário russos, bem como transcrição de abreviações profissionais. Os testes foram conduzidos através de interfaces web regulares: Claude Sonnet 4.6 — sem pensamento adaptativo, DeepSeek V4 — em modo rápido sem pensamento profundo.
No total, havia 50 prompts divididos em quatro blocos. Em abril de 2026, a diferença de preço parecia muito agressiva a favor de DeepSeek: $1,74 por milhão de tokens de entrada e $3,48 de saída contra $3 e $15 para Sonnet 4.6.
Com carga real, isso oferece aproximadamente economias triplicadas, então a tentação de mudar para um modelo mais barato é bem compreensível.
- Classificação de 20 tickets de suporte em cinco categorias
- Extração de campos de 15 documentos com erros de OCR
- 10 tarefas de raciocínio com normas de lei russa e cálculos
- 5 tarefas em terminologia local como EDS, UPD, OFD e KIZ
Onde existe paridade
Em cenários simples, havia quase nenhuma diferença. Ambos os modelos classificaram impecavelmente tickets de suporte e se saíram igualmente bem com perguntas típicas sobre entrega, devoluções, pagamento e consultas gerais. Em raciocínio básico também havia paridade: prazo de prescrição, devolução de adiantamento e um caso de demissão durante período de experiência — ambos os sistemas analisaram corretamente, embora com referências diferentes a normas.
O quadro foi semelhante na revisão de documentos. Ambos os modelos não confundiram OGRNIP com INN, pegaram o valor de uma linha de dígitos se a descrição contivesse erro, e extraíram corretamente datas de relatórios de adiantamento. Segundo a avaliação do autor, se 80% da carga de uma empresa consistir precisamente em tais tarefas, mudar para DeepSeek pode realmente reduzir o orçamento em aproximadamente 75% sem perda notável de qualidade.
"Benchmarks em inglês não nos ajudam a escolher um modelo para uma
tarefa russa."
Onde os erros custam caro
Os problemas começaram onde inteligência geral não é suficiente, mas conhecimento de contexto local e precisão em casos extremos são necessários. Em um teste calculando salário de um funcionário com salário de 150.000 rublos, Sonnet deu os corretos 130.500 rublos em mãos, enquanto DeepSeek deu 110.550. Essencialmente, o modelo reteve 26,3% ao invés dos padrão 13%, provavelmente confundindo imposto de renda com contribuições de seguro do empregador. Para fins de demonstração, isto é apenas um erro, mas em um pipeline automatizado — potencialmente centenas de milhares de rublos em erro por mês.
Outra falha foi encontrada na normalização de OCR. Ambos os modelos leram corretamente o valor, INN e data em uma nota fiscal com caracteres russos e latinos misturados, mas apenas Sonnet normalizou o número do documento para forma canônica. DeepSeek deixou as letras O e l onde deveriam estar dígitos. Se tal número for posteriormente comparado com banco de dados 1C ou ERP por correspondência exata, o documento simplesmente não será encontrado, embora os outros campos pareçam corretos.
O tipo mais desagradável de erro DeepSeek mostrou em uma tarefa sobre dedução social para educação de um filho de 25 anos. O modelo começou a resposta com "SIM", e depois explicou por si mesmo por que sob Artigo 219 do Código Tributário Russo a dedução não é permitida após os 24 anos. Para uma pessoa, a contradição é imediatamente óbvia, mas para um sistema que apenas analisa a primeira palavra, isto já é uma classe incorreta.
Um problema semelhante surgiu em terminologia: Sonnet revelou corretamente KIZ como marca de identificação de controle, enquanto DeepSeek inventou uma variante sobre "código de identificação de peça". No total, Sonnet marcou 92% versus 88% em documentos, 100% versus 60% em tarefas com especificação legal russa, e 100% versus 80% em terminologia local.
O que isso significa
A conclusão prática: DeepSeek V4 Pro é bem adequado para suporte de primeira linha, respostas templorizadas, classificação básica e MVP, onde preço é crítico e um erro não leva a ação financeira ou legal. Mas se o modelo participa de cálculos de dinheiro, interpretação de normas do Código Tributário e do Trabalho russos, normalização de documentos, ou fornece respostas que são diretamente analisadas por sistemas, o prêmio pelo Claude Sonnet 4.6 parece um seguro contra consequências mais caras. Escolha entre eles não por benchmarks, mas por 30-50 de suas próprias solicitações reais.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.