Habr AI→ original

Un an après, Qwen3 conserve son trône en rapport prix/qualité — test comparatif de modèles

Test comparatif de LLM : Qwen3-235B de juillet 2025 domine à nouveau en rapport prix/qualité. En un an, Gemini s'est amélioré de 40 points, DeepSeek V4 Flash…

Traité par IA depuis Habr AI ; édité par Hamidun News
Un an après, Qwen3 conserve son trône en rapport prix/qualité — test comparatif de modèles
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

J'ai rassemblé quatre modèles LLM dans un lot pour vérifier si le petit Gemma avait vraiment surpassé le grand dans les tests intersession. Les résultats se sont avérés beaucoup plus intéressants que prévu.

Comparaison équitable : Gemma n'a pas dépassé l'autre

Dans une comparaison équitable, le résultat inattendu du test intersession s'est dissipé : les deux Gemma se sont avérées égales, aucune différence. Mais ce n'était que le début. DeepSeek V4 Flash, que j'avais évalué à 83 points, a cette fois obtenu 89 — exactement 6 points de plus. Le modèle s'est avéré sous-évalué, et ce fut la principale découverte du lot. Une surévaluation d'un modèle peut entraîner une sous-évaluation de toute la hiérarchie. C'est pourquoi les comparaisons équitables dans un même contexte restent l'étalon-or.

Qwen conserve son trône depuis un an

Qwen3-235B-A22B-2507 (sortie du 21 juillet 2025) a une fois de plus pris la première place en rapport prix/qualité. C'était le point de contrôle de juillet — il y a presque exactement un an. Et il n'a toujours pas perdu face à la concurrence. Beaucoup de choses se sont produites cette année. Gemini a bondi de 57 à 97 points — une augmentation de 40 points. J'ai ré-testé DeepSeek trois fois, chaque fois avec de nouveaux résultats. De nouveaux prétendants sont apparus. Mais Qwen ? Elle conserve simplement son trône.

  • Gemini : +40 points en un an
  • DeepSeek V4 Flash : sous-évalué de 6 points
  • Qwen3 : toujours meilleur en rapport prix/qualité
  • MiniMax : a généré du buzz, solide dans les tests, mais pas révolutionnaire
  • Huit nouveaux modèles de juin : n'ont pas déplacé le leader

Nouveaux critères et buzz autour de MiniMax

La mise à jour du classement a ajouté un nouveau critère — la vitesse de génération. Il s'avère que la rapidité et la qualité ne vont pas toujours de pair. Un modèle peut être rapide, mais plus lent à apprendre sur les données actuelles, ou vice versa. À propos de MiniMax, il faut dire quelque chose de particulier. Il est vraiment loué par tous, et en termes de capacités, il se rapproche d'Opus. Mais il y a eu beaucoup de buzz autour de lui. Dans des tests équitables, il montre des résultats dignes d'attention, mais pas assez révolutionnaires pour réécrire la hiérarchie.

Ce que cela signifie

Si vous choisissez entre la qualité et le prix, Qwen3-235B reste le meilleur choix pour la plupart des tâches. Les autres modèles sont plus spécialisés : Gemini pour la multimodalité, DeepSeek pour l'expérimentation, MiniMax pour ceux qui sont prêts à payer plus.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…