DeepSeek V4 Pro vs Claude Sonnet 4.6 sur 50 tâches réelles : où économiser, où se trouve le risque
DeepSeek V4 Pro s'est avéré 3-4 fois moins cher que Claude Sonnet 4.6, mais sur un test de 50 tâches typiques pour un développeur russe, il a échoué en…
Traité par IA depuis Habr AI ; édité par Hamidun News
Une comparaison entre DeepSeek V4 Pro et Claude Sonnet 4.6 sur 50 tâches typiques d'un développeur russe a montré une chose simple : un prix bas par token ne garantit pas le meilleur choix pour la production. Sur les scénarios de base, les modèles fonctionnent presque à égalité, mais sur les tâches avec des spécifications russes, DeepSeek commet notablement plus d'erreurs.
Ce qui a été testé
L'auteur de l'article a comparé les modèles non sur des benchmarks académiques, mais sur des demandes pratiques qui se produisent réellement dans les équipes locales : support client, extraction de données à partir de documents, calculs selon les normes du Code du travail et du Code fiscal russes, ainsi que transcription des abréviations professionnelles. Les tests ont été menés via les interfaces web ordinaires : Claude Sonnet 4.6 — sans pensée adaptative, DeepSeek V4 — en mode rapide sans pensée profonde.
Au total, il y avait 50 prompts divisés en quatre blocs. En avril 2026, la différence de prix semblait très agressive en faveur de DeepSeek : 1,74 $ par million de tokens d'entrée et 3,48 $ de sortie contre 3 $ et 15 $ pour Sonnet 4.6.
Avec une charge réelle, cela offre environ trois fois d'économies, donc la tentation de passer à un modèle moins cher est bien compréhensible.
- Classification de 20 tickets de support en cinq catégories
- Extraction de champs de 15 documents avec des erreurs OCR
- 10 tâches de raisonnement avec les normes de droit russe et les calculs
- 5 tâches sur la terminologie locale comme EDS, UPD, OFD et KIZ
Où il y a parité
Sur les scénarios simples, il n'y avait presque aucune différence. Les deux modèles ont classifié impeccablement les tickets de support et se sont débrouillés également bien avec les questions typiques sur la livraison, les retours, le paiement et les demandes générales. En raisonnement de base, il y avait aussi parité : délai de prescription, remboursement d'acompte et un cas de licenciement pendant la période de probation — les deux systèmes ont analysé correctement, bien qu'avec des références différentes aux normes.
Le tableau était similaire dans l'examen des documents. Les deux modèles n'ont pas confondu OGRNIP avec INN, ont pris le montant d'une ligne de chiffres si la description contenait une erreur, et ont correctement extrait les dates des rapports d'acompte. Selon l'évaluation de l'auteur, si 80% de la charge d'une entreprise consistent précisément en de telles tâches, le passage à DeepSeek peut réellement réduire le budget d'environ 75% sans baisse notable de la qualité.
«
Les benchmarks en anglais ne nous aident pas à choisir un modèle pour une tâche russe. »
Où les erreurs coûtent cher
Les problèmes ont commencé là où l'intelligence générale ne suffit pas, mais où la connaissance du contexte local et la précision sur les cas limites sont requises. Dans un test de calcul du salaire d'un employé avec un salaire de 150 000 roubles, Sonnet a donné les corrects 130 500 roubles en main, tandis que DeepSeek a donné 110 550. Essentiellement, le modèle a retenu 26,3% au lieu des 13% standard, confondant probablement l'impôt sur le revenu avec les cotisations d'assurance de l'employeur. À titre de démonstration, c'est juste une erreur, mais dans un pipeline automatisé — potentiellement des centaines de milliers de roubles d'erreur par mois.
Une autre défaillance a été trouvée dans la normalisation OCR. Les deux modèles ont correctement lu le montant, l'INN et la date sur une facture avec des caractères russes et latins mélangés, mais seul Sonnet a normalisé le numéro de document à la forme canonique. DeepSeek a laissé les lettres O et l où devraient être des chiffres. Si ce numéro est ensuite comparé avec une base de données 1C ou ERP par correspondance exacte, le document ne sera tout simplement pas trouvé, bien que les autres champs semblent corrects.
Le type d'erreur le plus désagréable que DeepSeek a montré était dans une tâche concernant une déduction sociale pour l'éducation d'un fils de 25 ans. Le modèle a commencé la réponse par « OUI », puis a lui-même expliqué pourquoi en vertu de l'article 219 du Code fiscal russe, la déduction n'est pas autorisée après 24 ans. Pour une personne, la contradiction est immédiatement évidente, mais pour un système qui n'analyse que le premier mot, c'est déjà une classe incorrecte.
Un problème similaire est survenu dans la terminologie : Sonnet a correctement révélé KIZ comme marque d'identification de contrôle, tandis que DeepSeek a inventé une variante sur le « code d'identification de pièce ». Au total, Sonnet a obtenu 92% contre 88% sur les documents, 100% contre 60% sur les tâches avec spécification légale russe, et 100% contre 80% sur la terminologie locale.
Qu'est-ce que cela signifie
La conclusion pratique : DeepSeek V4 Pro convient bien au support de première ligne, aux réponses modèles, à la classification de base et au MVP, où le prix est critique et une erreur ne conduit pas à une action financière ou juridique. Mais si le modèle participe à des calculs d'argent, à l'interprétation des normes du Code fiscal et du travail russes, à la normalisation de documents, ou fournit des réponses directement analysées par des systèmes, la prime pour Claude Sonnet 4.6 ressemble à une assurance contre des conséquences plus coûteuses. Choisissez entre eux non pas par des benchmarks, mais par 30-50 de vos propres demandes réelles.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.