AWS libera Agent-EvalKit como código abierto: evaluación sistemática de agentes de AI en seis fases
AWS ha liberado Agent-EvalKit como código abierto, un framework Apache 2.0 para la evaluación sistemática de agentes de AI. La herramienta se integra con…
Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
AWS lanzó Agent-EvalKit — una herramienta de código abierto (Apache 2.0) para la evaluación sistemática de agentes de IA. El framework se integra con Claude Code, Kiro CLI y Kilo Code y conduce a un agente a través de seis fases secuenciales de verificación.
Por Qué Importa la Evaluación de Agentes
Desarrollar un agente de IA es directo. Entender cuán bien funciona es otra historia. Un agente puede devolver respuestas plausibles mientras llama a herramientas innecesarias, gasta órdenes de magnitud más tokens de los necesarios, u omite pasos críticos en su cadena de razonamiento. Las métricas estándar como la precisión no funcionan aquí: un agente es un sistema dinámico donde no solo importa el punto final, sino todo el camino hacia él. Los registros de herramientas, el orden de las llamadas, las decisiones intermedias — todo esto afecta la confiabilidad del agente en producción. Por eso el equipo de AWS creó infraestructura de evaluación especializada.
Seis Fases de Verificación
El framework ejecuta secuencialmente a un agente a través de seis etapas:
- Preparación de la tarea — formación de un conjunto de casos de prueba con datos de entrada, contexto y respuestas de referencia
- Ejecución del agente — ejecución de tareas en un entorno controlado con grabación completa del rastreo
- Evaluación de trayectoria — verificación de si el agente llamó a las herramientas requeridas en el orden correcto
- Evaluación de la respuesta final — comparación del resultado con la referencia por contenido, estructura y precisión
- Análisis de seguridad — verificación de comportamiento no deseado y violaciones de alcance
- Generación de informe — agregación de métricas y formación de una puntuación final con desglose por categorías
Cada fase se puede configurar por separado: ejecutar solo evaluación de trayectoria, solo el informe final, o el ciclo completo.
Ejemplo: Agente de Planificación de Viajes
Como demostración, AWS muestra un agente escrito usando Strands Agents SDK y ejecutándose en Amazon Bedrock. El agente recibe una solicitud del usuario — por ejemplo, "Planifica un viaje de siete días a Tokio con un presupuesto de $2000" — busca vuelos y hoteles a través de herramientas externas, analiza atracciones y devuelve un itinerario final. Agent-EvalKit verifica tal agente en todas las seis fases: verifica que la herramienta de búsqueda de vuelos se llamó antes de la búsqueda de hoteles, que la respuesta final contiene fechas y precios específicos, que el agente se mantuvo dentro del presupuesto y no inventó vuelos inexistentes. Tal verificación revela errores invisibles en las pruebas manuales regulares.
Integración con Asistentes de IA
La diferencia principal de Agent-EvalKit respecto a los análogos es la integración profunda con asistentes de codificación de IA. Claude Code, Kiro CLI y Kilo Code pueden ejecutar evaluación directamente dentro del entorno de trabajo del desarrollador, sin cambiar a una plataforma separada o configurar un pipeline separado. El framework se distribuye bajo la licencia Apache 2.0. El código fuente está abierto en GitHub; la documentación describe ejemplos listos para varios frameworks de IA populares.
"Queríamos crear una infraestructura de evaluación que los desarrolladores pudieran conectar en cuestión de minutos, sin construirla desde cero," escriben los autores en el blog de AWS
Machine Learning.
Qué Significa Esto
La aparición de una herramienta de evaluación estandarizada es un paso importante hacia el uso industrial de agentes de IA. Sin la capacidad de medir sistemáticamente el desempeño del agente en tareas reales, es difícil justificar su aplicación en procesos comerciales críticos. Agent-EvalKit ofrece una metodología concreta en lugar de pruebas manuales.
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.