Business

HumanEval

HumanEval est un benchmark de génération de code de 164 problèmes de programmation Python écrits à la main créés par OpenAI en 2021, utilisé pour mesurer la capacité d'un modèle de langage à produire du code fonctionnellement correct, évalué via la métrique pass@k.

HumanEval est un ensemble de données benchmark pour évaluer les capacités de codage des grands modèles de langage, introduit par Mark Chen et ses collègues à OpenAI dans l'article de 2021 « Evaluating Large Language Models Trained on Code ». Il contient 164 défis de programmation Python artisanalement conçus, chacun consistant en une signature de fonction, une docstring en langage naturel décrivant la tâche, et un ensemble caché de tests unitaires. Un modèle réussit un problème si son code généré satisfait tous les tests unitaires sans modification.

La métrique d'évaluation principale est pass@k : la probabilité estimée qu'au moins une solution parmi k échantillons générés passe tous les tests. Pass@1 (une seule tentative de génération) est le plus couramment rapporté car c'est le proxy le plus pratique pour l'utilisation réelle. Les problèmes vont de la simple manipulation de chaînes aux algorithmes récursifs et aux tâches de structure de données de base, délibérément basés sur de véritables exercices d'ingénierie logicielle plutôt que sur des puzzles de programmation compétitive, afin que les scores reflètent la capacité de codage pratique.

HumanEval est devenu un standard de facto pour comparer les systèmes de génération de code car il mesure la correction fonctionnelle plutôt que la similarité textuelle de surface. Le modèle Codex d'OpenAI a marqué 28,8% pass@1 à la sortie du benchmark en 2021. GPT-4 a atteint environ 67% pass@1 en 2023, et en 2025–2026 les modèles de pointe tels que Claude 3.5 Sonnet et OpenAI o3 dépassent régulièrement 85–90%, ce qui indique que le benchmark approche la saturation.

Malgré ses limites — un ensemble de problèmes public fixe vulnérable à la contamination des données, portée Python-seulement, et contextes de problèmes relativement courts — HumanEval reste une citation de base dans les articles de sortie de modèles et les classements commerciaux. Sa saturation a stimulé l'adoption de successeurs plus difficiles tels que SWE-bench, LiveCodeBench et HumanEval+, qui testent respectivement l'édition multi-fichiers, les véritables problèmes GitHub et la robustesse des cas limites.

Exemple

Lorsqu'Anthropic a publié Claude 3.5 Sonnet, le rapport technique incluait son score HumanEval pass@1 aux côtés des résultats MATH et MMLU afin que les développeurs puissent évaluer sa capacité de codage directement par rapport à GPT-4o et Gemini 1.5 Pro sur une base partagée.

Termes liés

Benchmark Agent de Programmation SWE-bench Évaluation de modèle (Evals)

← Glossaire