Hugging Face lançou o Open Agent Leaderboard para avaliar agentes de AI
A Hugging Face lançou o Open Agent Leaderboard, o primeiro benchmark aberto para avaliar agentes de AI completos, e não apenas modelos. Ele testa sistemas em có

Hugging Face e IBM Research apresentaram Open Agent Leaderboard — o primeiro benchmark aberto para avaliar sistemas de agentes completos, não apenas modelos individuais. A pesquisa mostrou que a qualidade do desempenho de um agente de AI depende não tanto do modelo em si, mas de como foi construído.
O que o benchmark testa
O benchmark aberto inclui seis conjuntos diferentes de tarefas:
- Corrigir bugs reais em repositórios de código (SWE-Bench Verified)
- Busca web complexa e coleta de informações (BrowseComp+)
- Executar tarefas pessoais em centenas de aplicações (AppWorld)
- Suporte ao cliente de companhias aéreas e varejo (tau2-Bench)
- Suporte técnico com conformidade às políticas da empresa (Telecom)
Todos os testes rodam em um protocolo unificado: estrutura de tarefa idêntica, contexto e ferramentas disponíveis. Isso permite que os agentes sejam comparados de forma justa sem exigir que sejam adaptados para cada benchmark.
Descoberta principal: arquitetura do agente importa mais que o modelo
A análise revelou um resultado inesperado. O mesmo modelo incorporado em diferentes arquiteturas de agentes mostra resultados completamente diferentes — tanto em qualidade quanto em custo de execução. Além disso, tentativas falhadas custam 20–54% mais que as bem-sucedidas devido a requisições repetidas ao modelo. Agentes de propósito geral se mostraram competitivos com sistemas especializados desenvolvidos para tarefas específicas. Isso é especialmente importante porque agentes especializados são mais difíceis de implantar no mundo real.
"Hoje, a escolha do modelo explica a maioria dos resultados.
Mas a arquitetura do agente já está começando a mudar o resultado" — conclusão dos pesquisadores.
O que está atualmente disponível para a comunidade
Hugging Face lançou vários recursos para desenvolvedores.
Open Agent Leaderboard — uma tabela interativa com resultados de todos os testes.
Exgentic — uma plataforma aberta para executar e reproduzir avaliações, permitindo que outros pesquisadores adicionem seus próprios agentes e benchmarks. Como um dos primeiros resultados, dois modelos de pesos abertos foram adicionados: DeepSeek V3.2 e Kimi K2.5. Eles mostraram resultados competitivos em combinações individuais, mas ainda ficam atrás dos modelos fechados por 18–29% em média.
O que isso significa
Um benchmark aberto para agentes é um passo em direção à padronização da avaliação. À medida que os agentes de AI evoluem, sua arquitetura (planejamento, gerenciamento de memória, uso de ferramentas, recuperação de erros) se torna tão importante quanto a seleção do modelo. O leaderboard torna essas diferenças visíveis e permite que a comunidade construa sistemas melhores juntos.