Habr AI→ original

Qwen 3.6 Plus surpasse DeepSeek V4 Pro dans l'évaluation de contenu russe et s'avère plus rentable

Dans l'évaluation de contenu russe, le nouveau DeepSeek V4 Pro n'a pas atteint le niveau Tier S attendu : 89 points contre 92 pour Qwen 3.6 Plus. L'analyse…

Traité par IA depuis Habr AI ; édité par Hamidun News
Qwen 3.6 Plus surpasse DeepSeek V4 Pro dans l'évaluation de contenu russe et s'avère plus rentable
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Un test comparatif récent de six LLM d'avril sur du contenu en russe a apporté un résultat inattendu : le nouveau vaisseau amiral DeepSeek V4 Pro n'est pas devenu le leader. Qwen 3.6 Plus a obtenu de meilleures performances, ayant été lancé plus tôt et coûtant moins cher.

Qui s'est avéré être en tête

On attendait de DeepSeek V4 Pro qu'il délivre des résultats de niveau Tier S — plus de 95 points sur 100. Les attentes étaient logiques : le modèle est grand, nouveau, avec des résultats solides sur AIME et SWE-bench et mettant l'accent sur l'architecture de reasoning. Mais dans un test pratique sur du contenu en russe, il a obtenu 89 points.

C'est un résultat solide, mais pas du type habituellement attendu d'une version revendiquant le statut de vaisseau amiral sur le marché. Encore plus intéressante est la comparaison au sein même de la gamme DeepSeek. La version Flash a obtenu 83 points, ne perdant face à Pro que de 6 points.

Dans ce contexte, le retest de Qwen 3.6 Plus, lancé 22 jours plus tôt, a obtenu 92 points. En résultat, le modèle plus ancien a surpassé la dernière version de DeepSeek non seulement en qualité de texte, mais aussi en utilité générale pour les tâches réelles en langue russe.

Prix contre qualité

La principale surprise réside non seulement dans les points, mais dans l'économie. Si Pro surpasse Flash que de quelques points tout en coûtant 13 fois plus cher, le choix pour la production ne semble plus évident. Pour les équipes générant de grands volumes de contenu, cette différence se transforme rapidement en un poste de dépense notable.

Dans un tel scénario, ce qui compte n'est pas le score absolu au test, mais combien de résultats utiles le modèle livrera par dollar dépensé. Dans la méthodologie mise à jour, l'auteur de la comparaison souligne précisément cela et propose d'évaluer les modèles via score-per-dollar. Cette approche change les conclusions bien plus drastiquement qu'un classement conventionnel par scores bruts.

Un modèle peut légèrement accuser du retard en qualité mais l'emporter dans l'utilisation réelle grâce au prix, à la vitesse et à un comportement plus prévisible sur les réponses longues. Pour les équipes éditoriales et produit, c'est bien plus utile que de payer aveuglément pour l'option la plus chère.

  • DeepSeek V4 Pro — 89 points avec attentes Tier S
  • DeepSeek Flash — 83 points avec une économie notablement plus douce
  • Qwen 3.6 Plus — 92 points et leadership dans la comparaison
  • Différence entre Pro et Flash — 6 points avec une différence de prix 13 fois supérieure
  • Métrique clé pour la sélection — non seulement le score, mais le score-per-dollar

Pourquoi le reasoning ne l'a pas sauvé

L'une des principales hypothèses après le test est que l'optimisation pour le reasoning ne garantit pas de forts résultats narratifs. Des métriques comme AIME et SWE-bench démontrent efficacement les capacités d'un modèle en mathématiques, code et raisonnement structuré, mais sont moins bonnes pour prédire comment il rédigera un texte vivant, cohérent et convaincant en russe. Pour les tâches de contenu, le rythme, la précision de la formulation, le sens de la structure et la maîtrise des nuances de la langue importent, pas seulement la capacité à décomposer correctement une tâche en étapes.

Sur ce fond, les mises à jour de méthodologie ne ressemblent pas à une simple formalité, mais à une tentative d'approcher plus honnêtement le test de la production. Parmi les changements se trouvent les ajustements de max_tokens, les retests payants et une évaluation plus stricte de la valeur pratique des réponses. En d'autres termes, nous ne comparons plus simplement des modèles « intelligents », mais des modèles qui doivent résoudre de manière cohérente une tâche éditoriale spécifique dans un budget donné.

C'est précisément dans de telles conditions qu'il est devenu clair que la nouveauté d'une version n'est plus un avantage en soi.

Ce que cela signifie

Le marché des LLM ressemble de moins en moins à une course « plus c'est nouveau, mieux c'est ». Pour les tâches de contenu en langue russe, le gagnant n'est pas le modèle le plus bruyant, mais celui qui maintient mieux la qualité du texte et s'amortit en production. Pour les équipes, ceci est un signal pour retester plus souvent les nouveaux vaisseaux amirals sur leurs propres scénarios, plutôt que de les choisir uniquement sur la base des titres de benchmarks.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…