Hugging Face Blog→ original

Hugging Face lançou o Open Agent Leaderboard para avaliar agentes de AI

A Hugging Face lançou o Open Agent Leaderboard, o primeiro benchmark aberto para avaliar agentes de AI completos, e não apenas modelos. Ele testa sistemas em có

Hugging Face lançou o Open Agent Leaderboard para avaliar agentes de AI
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Hugging Face e IBM Research apresentaram Open Agent Leaderboard — o primeiro benchmark aberto para avaliar sistemas de agentes completos, não apenas modelos individuais. A pesquisa mostrou que a qualidade do desempenho de um agente de AI depende não tanto do modelo em si, mas de como foi construído.

O que o benchmark testa

O benchmark aberto inclui seis conjuntos diferentes de tarefas:

  • Corrigir bugs reais em repositórios de código (SWE-Bench Verified)
  • Busca web complexa e coleta de informações (BrowseComp+)
  • Executar tarefas pessoais em centenas de aplicações (AppWorld)
  • Suporte ao cliente de companhias aéreas e varejo (tau2-Bench)
  • Suporte técnico com conformidade às políticas da empresa (Telecom)

Todos os testes rodam em um protocolo unificado: estrutura de tarefa idêntica, contexto e ferramentas disponíveis. Isso permite que os agentes sejam comparados de forma justa sem exigir que sejam adaptados para cada benchmark.

Descoberta principal: arquitetura do agente importa mais que o modelo

A análise revelou um resultado inesperado. O mesmo modelo incorporado em diferentes arquiteturas de agentes mostra resultados completamente diferentes — tanto em qualidade quanto em custo de execução. Além disso, tentativas falhadas custam 20–54% mais que as bem-sucedidas devido a requisições repetidas ao modelo. Agentes de propósito geral se mostraram competitivos com sistemas especializados desenvolvidos para tarefas específicas. Isso é especialmente importante porque agentes especializados são mais difíceis de implantar no mundo real.

"Hoje, a escolha do modelo explica a maioria dos resultados.

Mas a arquitetura do agente já está começando a mudar o resultado" — conclusão dos pesquisadores.

O que está atualmente disponível para a comunidade

Hugging Face lançou vários recursos para desenvolvedores.

Open Agent Leaderboard — uma tabela interativa com resultados de todos os testes.

Exgentic — uma plataforma aberta para executar e reproduzir avaliações, permitindo que outros pesquisadores adicionem seus próprios agentes e benchmarks. Como um dos primeiros resultados, dois modelos de pesos abertos foram adicionados: DeepSeek V3.2 e Kimi K2.5. Eles mostraram resultados competitivos em combinações individuais, mas ainda ficam atrás dos modelos fechados por 18–29% em média.

O que isso significa

Um benchmark aberto para agentes é um passo em direção à padronização da avaliação. À medida que os agentes de AI evoluem, sua arquitetura (planejamento, gerenciamento de memória, uso de ferramentas, recuperação de erros) se torna tão importante quanto a seleção do modelo. O leaderboard torna essas diferenças visíveis e permite que a comunidade construa sistemas melhores juntos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…