SWE-bench
SWE-bench est un benchmark qui évalue les systèmes de codage IA sur des tâches réelles d'ingénierie logicielle en les obligeant à résoudre de véritables problèmes GitHub dans des référentiels Python open-source, le succès étant défini par la production d'un patch de code qui passe la suite de tests automatisés du projet.
SWE-bench est un benchmark d'ingénierie logicielle introduit par Carlos Jimenez et ses collègues de l'Université de Princeton en 2023. Il comprend plus de 2 000 problèmes réels extraits de référentiels Python open-source populaires — incluant Django, scikit-learn, Flask, astropy et sympy — chacun associé au patch de référence utilisé pour résoudre le problème et une suite de tests qui vérifie la correction. Un système réussit une tâche si son patch généré, appliqué à la base de code, fait passer les tests pertinents sans casser d'autres tests qui passaient. Cette métrique pass@1 resolved exige du code fonctionnellement correct, pas une réponse plausible.
SWE-bench teste des capacités bien au-delà de la génération de code isolée : comprendre de grandes bases de code multi-fichiers, reproduire des bogues à partir de descriptions en langage naturel, naviguer dans la structure du référentiel et écrire des patches qui s'intègrent proprement au style et à la logique du code existant. SWE-bench Lite (300 instances curées) et SWE-bench Verified (un sous-ensemble validé par l'homme d'environ 500 tâches) sont les sous-ensembles les plus couramment rapportés, choisis pour réduire le bruit des problèmes ambigus. Les performances initiales étaient très faibles — les bases de GPT-4 ont résolu moins de 5% sur l'ensemble complet du benchmark, et l'agent Devin de Cognition AI a attiré une large attention au début de 2024 en résolvant environ 13,8% des tâches, ce qui était à l'époque un résultat de pointe.
SWE-bench est important car il mesure l'utilité pratique de l'ingénierie d'une manière fondée et vérifiable, exigeant l'utilisation d'outils et un raisonnement multi-fichiers plutôt que la seule fluidité du langage. Il a stimulé le développement d'agents de codage IA spécialisés — des systèmes qui combinent des modèles de langage avec un accès à la shell, l'exécution de code et des outils d'édition de fichiers — et est devenu le benchmark compétitif principal pour cet écosystème.
En 2026, les taux de résolution sur SWE-bench Verified ont augmenté considérablement. Les systèmes d'agents de pointe d'Anthropic, OpenAI et de plusieurs startups ont rapporté des taux de résolution dépassant 50%, les meilleurs systèmes revendiquant plus de 60%. Ce progrès a réduit le pouvoir discriminatif du benchmark à la frontière et a stimulé l'intérêt pour des successeurs plus difficiles couvrant de plus grandes bases de code, des tâches multi-référentiels et des langues autres que Python.