Hugging Face a lancé Open Agent Leaderboard pour évaluer les agents AI
Hugging Face a publié Open Agent Leaderboard, le premier benchmark ouvert pour évaluer des agents AI complets plutôt que de simples modèles. Il teste les systèm

Hugging Face et IBM Research ont présenté Open Agent Leaderboard — le premier benchmark ouvert pour évaluer des systèmes d'agents complets, et non des modèles individuels. La recherche a montré que la qualité des performances d'un agent IA dépend non pas tant du modèle lui-même, mais de la façon dont il a été construit.
Ce que le benchmark teste
Le benchmark ouvert comprend six ensembles différents de tâches :
- Corriger les bugs réels dans les référentiels de code (SWE-Bench Verified)
- Recherche web complexe et collecte d'informations (BrowseComp+)
- Exécution de tâches personnelles dans des centaines d'applications (AppWorld)
- Support client pour les compagnies aériennes et la vente au détail (tau2-Bench)
- Support technique avec conformité aux politiques de l'entreprise (Telecom)
Tous les tests fonctionnent selon un protocole unifié : structure de tâche identique, contexte et outils disponibles. Cela permet de comparer les agents de manière équitable sans exiger qu'ils soient adaptés pour chaque benchmark.
Principale découverte : l'architecture de l'agent importe plus que le modèle
L'analyse a révélé un résultat inattendu. Le même modèle intégré dans différentes architectures d'agents montre des résultats complètement différents — à la fois en qualité et en coût d'exécution. De plus, les tentatives échouées coûtent 20–54% plus cher que les réussites en raison des demandes répétées au modèle. Les agents à usage général se sont avérés compétitifs par rapport aux systèmes spécialisés développés pour des tâches spécifiques. C'est particulièrement important car les agents spécialisés sont plus difficiles à déployer dans le monde réel.
« Aujourd'hui, le choix du modèle explique la plupart des résultats.
Mais l'architecture de l'agent commence déjà à changer l'issue » — conclusion des chercheurs.
Ce qui est actuellement disponible pour la communauté
Hugging Face a lancé plusieurs ressources pour les développeurs.
Open Agent Leaderboard — un tableau interactif avec les résultats de tous les tests.
Exgentic — une plateforme ouverte pour exécuter et reproduire des évaluations, permettant aux autres chercheurs d'ajouter leurs propres agents et benchmarks. Comme l'un des premiers résultats, deux modèles à poids ouverts ont été ajoutés : DeepSeek V3.2 et Kimi K2.5. Ils ont montré des résultats compétitifs sur certaines combinaisons, mais restent en retrait par rapport aux modèles fermés de 18–29% en moyenne.
Ce que cela signifie
Un benchmark ouvert pour les agents est une étape vers la normalisation de l'évaluation. À mesure que les agents IA évoluent, leur architecture (planification, gestion de la mémoire, utilisation des outils, récupération après erreur) devient aussi importante que la sélection du modèle. Le leaderboard rend ces différences visibles et permet à la communauté de construire ensemble de meilleurs systèmes.