Hugging Face Blog→ original

TII a présenté QIMMA — un leaderboard pour les LLM arabes avec vérification de la qualité des benchmarks

TII a lancé QIMMA, un nouveau leaderboard pour les LLM arabes où les tests sont d'abord nettoyés et validés avant d'évaluer les modèles. L'ensemble comprend…

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
TII a présenté QIMMA — un leaderboard pour les LLM arabes avec vérification de la qualité des benchmarks
Source : Hugging Face Blog. Collage: Hamidun News.
◐ Écouter l'article

TII a lancé QIMMA — un nouveau classement pour les LLM arabes qui transforme l'approche de l'évaluation des modèles : l'équipe vérifie d'abord la qualité des benchmarks, puis seulement publie les résultats. Les auteurs du projet ont démontré que même les datasets arabes bien connus comportent des erreurs systématiques qui faussent les scores finaux.

Qu'est-ce que QIMMA

QIMMA combine 109 sous-ensembles de 14 benchmarks originaux dans un système d'évaluation unifié comptant plus de 52 000 exemples. La couverture est large : culture, STEM, droit, médecine, sécurité, poésie et littérature, ainsi que programmation. Selon les auteurs, 99 % du contenu du dataset est originellement en arabe, et non traduit de l'anglais.

C'est important car les tests traduits cassent souvent le contexte naturel, rendent la formulation maladroite et donnent aux modèles des tâches qui reflètent mal l'usage réel de la langue arabe. Sur ce fond, QIMMA se positionne non pas simplement comme un autre classement, mais comme une tentative de résoudre plusieurs problèmes anciens du traitement du langage naturel arabe : des classements fragmentés, une faible reproductibilité, l'absence de résultats ligne par ligne et des réponses de référence non vérifiées. Les auteurs soulignent particulièrement une autre distinction : c'est le premier classement arabe avec une évaluation de code intégrée.

Pour ce faire, le système a ajouté des versions arabes adaptées de HumanEval+ et MBPP+ pour vérifier non seulement la connaissance de la langue, mais aussi la capacité du modèle à comprendre les tâches de programmation formulées en arabe.

Comment fonctionne la validation

La partie clé du projet est un pipeline de validation en deux étapes. Avant d'exécuter les modèles, chaque exemple est vérifié indépendamment par deux grands modèles : Qwen3-235B-A22B-Instruct et DeepSeek-V3-671B. Ils évaluent les tâches selon une échelle de dix critères binaires. Si au moins un modèle attribue à un exemple moins de 7 sur 10, il est considéré comme problématique : quand les deux modèles sont d'accord, cet exemple est immédiatement exclu, et les cas litigieux sont envoyés à un examen manuel par des locuteurs natifs familiers des nuances régionales et dialectales.

QIMMA vérifie les benchmarks avant d'évaluer les modèles, afin que les

scores finaux reflètent la véritable qualité des LLM arabes.

Pour les benchmarks de code, l'équipe a emprunté une approche différente. Au lieu de supprimer des tâches, les chercheurs ont réécrit les formulations arabes sans modifier les identifiants, les solutions de référence et les ensembles de test. Dans HumanEval+, ils ont corrigé 145 invites sur 164, soit 88 %, et dans MBPP+ — 308 sur 378, ou 81 %. Les corrections ont porté sur plusieurs aspects :

  • normalisation du langage à l'arabe littéraire contemporain naturel
  • suppression des ambigüités et clarification des contraintes
  • harmonisation de la terminologie, de la ponctuation et du format des exemples
  • correction des erreurs structurelles comme les lignes cassées et les fragments de texte corrompus
  • clarification du sens où les plages ou les conditions étaient ambigus

Quels problèmes ont été trouvés

L'examen a montré qu'il ne s'agissait pas d'erreurs isolées, mais de défauts récurrents dans les datasets eux-mêmes. Par exemple, dans ArabicMMLU, l'équipe a rejeté 436 exemples, soit 3,1 % du dataset, et dans MizanQA — 41 exemples, soit 2,3 %. Il y avait des taux de défauts plus faibles dans certains, mais le schéma s'est répété dans tous les datasets : des erreurs dans les bonnes réponses, du texte illisible, des doublons, des étiquettes culturellement controversées et une discordance entre la réponse de référence et la méthode d'évaluation.

En d'autres termes, certains benchmarks arabes populaires étaient utilisés comme s'ils étaient sans erreur, alors qu'ils ne l'étaient pas. Sur le dataset nettoyé, le leader était Qwen3.5-397B-A17B-FP8 avec un score moyen de 68,06.

À la deuxième place — Karnak avec 66,20, à la troisième — Jais-2-70B-Chat avec 65,81. Notamment, les auteurs soulignent que la taille du modèle ne garantit pas de meilleurs résultats. Les modèles spécialisés en arabe surpassent souvent sur les tâches culturelles et linguistiques, tandis que les systèmes multilingues font mieux dans le codage : Qwen3.

5-397B obtient les meilleurs résultats à la fois sur HumanEval+ et MBPP+. En d'autres termes, QIMMA est utile non seulement comme un classement, mais comme une carte des points forts de différentes architectures.

Ce que cela signifie

QIMMA opère un changement simple mais important : comparer les LLM sans vérifier les tests eux-mêmes n'est plus suffisant. Pour le marché arabe, cela pourrait devenir une nouvelle norme d'évaluation, et pour les développeurs — un rappel que la qualité du benchmark affecte la réputation du modèle tout autant que le modèle lui-même.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…