Business

MMLU

MMLU (Massive Multitask Language Understanding) est un repère d'évaluation des modèles de langage sur environ 14 000 questions à choix multiples couvrant 57 sujets académiques — du calcul et de la médecine au droit et à l'éthique — fournissant une mesure normalisée des connaissances larges et du raisonnement.

MMLU (Massive Multitask Language Understanding) est un repère d'évaluation des modèles de langage introduit par Dan Hendrycks et ses collègues à l'UC Berkeley dans un article de 2020. Il comprend environ 14 042 questions à quatre choix tirées de 57 domaines couvrant les STEM, les sciences humaines, le droit, les sciences sociales et les domaines professionnels incluant la médecine et la comptabilité. Les questions sont tirées d'examens académiques réels, de tests standardisés et de manuels scolaires, ciblant les connaissances qu'un expert largement cultivé est censé posséder.

Les performances sont rapportées comme le pourcentage de réponses correctes, généralement dans un cadre de 5 coups où le modèle reçoit cinq exemples de questions-réponses avant chaque question de test. Une base aléatoire est de 25 % ; la performance humaine non experte est d'environ 34 % ; la performance estimée d'expert de domaine est d'environ 89–90 %. GPT-3 (175B) a obtenu un score d'environ 43 % à son lancement en 2020. Une croissance rapide de la capacité a suivi : GPT-4 a dépassé 86 % en 2023, et plusieurs modèles frontière, dont Gemini Ultra, Claude 3 Opus et Llama 3 405B, ont par la suite obtenu des scores dans la gamme 85–90 %.

L'ampleur de MMLU en a fait le repère dominant pour la comparaison de modèles inter-organisationnelle pendant plusieurs années. Il a révélé des sauts de capacité clairs liés à l'échelle du modèle et aux améliorations de l'entraînement et a été régulièrement cité dans les rapports de sortie de modèles comme signal primaire de capacité générale. Cependant, il a fait face à des critiques importantes : des preuves de contamination des données d'entraînement (questions de test apparaissant dans les corpus de préentraînement), des effets de plafonnement parmi les meilleurs modèles et des préoccupations selon lesquelles la performance du choix multiple peut refléter une correspondance de motifs de surface plutôt qu'un véritable raisonnement.

En 2026, MMLU conserve son rôle de référence historique et de base comparative mais est progressivement complétée par des variantes plus difficiles telles que MMLU-Pro, qui utilise des distracteurs plus difficiles et nécessite un raisonnement en plusieurs étapes, et par des repères tels que GPQA et ARC-AGI pour discriminer parmi les modèles frontière. Sa valeur principale restante est de fournir une échelle commune contre laquelle les modèles anciens et nouveaux peuvent être positionnés.

Exemple

Une équipe de recherche comparant trois modèles de poids ouvert à GPT-4 rapporte la précision MMLU 5-shot de chaque modèle aux côtés des scores spécifiques à la tâche ; un modèle obtenant 88 % est décrit comme tombant dans la gamme de classe GPT-4 sur les connaissances académiques larges.

Termes liés

Benchmark Évaluation de modèle (Evals)Grand Modèle de Langage (LLM)GPQA

← Glossaire