Hugging Face Blog→ original

Hugging Face lanzó Open Agent Leaderboard para evaluar agentes de AI

Hugging Face lanzó Open Agent Leaderboard, el primer benchmark abierto para evaluar agentes de AI completos y no solo modelos. Evalúa sistemas en código, búsque

Hugging Face lanzó Open Agent Leaderboard para evaluar agentes de AI
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

Hugging Face e IBM Research presentaron Open Agent Leaderboard — el primer benchmark abierto para evaluar sistemas de agentes completos, no solo modelos individuales. La investigación mostró que la calidad del rendimiento de un agente de IA depende no tanto del modelo en sí, sino de cómo fue construido.

Qué prueba el benchmark

El benchmark abierto incluye seis conjuntos diferentes de tareas:

  • Corregir bugs reales en repositorios de código (SWE-Bench Verified)
  • Búsqueda web compleja y recopilación de información (BrowseComp+)
  • Ejecutar tareas personales en cientos de aplicaciones (AppWorld)
  • Soporte al cliente de aerolíneas y retail (tau2-Bench)
  • Soporte técnico con cumplimiento de políticas de la empresa (Telecom)

Todas las pruebas se ejecutan en un protocolo unificado: estructura de tarea idéntica, contexto y herramientas disponibles. Esto permite que los agentes se comparen de manera justa sin requerir que se adapten para cada benchmark.

Hallazgo principal: la arquitectura del agente importa más que el modelo

El análisis reveló un resultado inesperado. El mismo modelo integrado en diferentes arquitecturas de agentes muestra resultados completamente diferentes — tanto en calidad como en costo de ejecución. Además, los intentos fallidos cuestan 20–54% más que los exitosos debido a solicitudes repetidas al modelo. Los agentes de propósito general resultaron ser competitivos con sistemas especializados desarrollados para tareas específicas. Esto es especialmente importante porque los agentes especializados son más difíciles de implementar en el mundo real.

"Hoy en día, la elección del modelo explica la mayoría de los resultados.

Pero la arquitectura del agente ya está comenzando a cambiar el resultado" — conclusión de los investigadores.

Qué está disponible actualmente para la comunidad

Hugging Face lanzó varios recursos para desarrolladores.

Open Agent Leaderboard — una tabla interactiva con resultados de todas las pruebas.

Exgentic — una plataforma abierta para ejecutar y reproducir evaluaciones, permitiendo que otros investigadores agreguen sus propios agentes y benchmarks. Como uno de los primeros resultados, se agregaron dos modelos de pesos abiertos: DeepSeek V3.2 y Kimi K2.5. Mostraron resultados competitivos en combinaciones individuales, pero aún se quedan atrás de los modelos cerrados en 18–29% en promedio.

Qué significa esto

Un benchmark abierto para agentes es un paso hacia la estandarización de la evaluación. A medida que los agentes de IA evolucionan, su arquitectura (planificación, gestión de memoria, uso de herramientas, recuperación de errores) se vuelve tan importante como la selección del modelo. El leaderboard hace visibles estas diferencias y permite que la comunidad construya mejores sistemas juntos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…