Cómo medir el rendimiento de un agente de AI en QA: la historia de un benchmark
Mikhail Fedorov desarrolló un benchmark objetivo para QA Assist, un sistema de 11 agentes de AI que automatizan las pruebas. En lugar de evaluaciones subjetivas
Procesado por IA desde Habr AI; editado por Hamidun News
Cuando un agente AI trabaja en tareas de prueba, la pregunta principal se vuelve acuciante: ¿realmente es mejor que ayer? Esta pregunta no se puede responder simplemente — necesitas números. Mikhail Fedorov, desarrollador de QA Assist, se enfrentó a este problema de frente. QA Assist es un sistema de 11 agentes AI que en conjunto cubren todo el ciclo de pruebas: desde la descomposición de requisitos hasta las pruebas automatizadas listas. Pero ¿cómo evaluar si el sistema mejoró después de la siguiente actualización? A ojo — no es confiable.
Por qué las Evaluaciones Visuales No Funcionan
La evaluación subjetiva puede ser engañosa: el agente encontró 5 bugs ayer, 7 hoy, pero ¿puedes estar seguro de que el sistema realmente mejoró en lugar de que el conjunto de pruebas simplemente haya cambiado? Diferentes versiones de modelo, diferentes prompts, diferentes parámetros de temperatura de LLM — todo esto afecta el resultado. Sin un benchmark sistemático, es difícil descubrir qué exactamente ayuda. Fedorov resolvió el problema radicalmente: creó un proyecto de benchmark separado donde el agente trabaja con las mismas reglas, sobre los mismos requisitos, con los mismos casos límite.
Lo que el Benchmark Puede Hacer
- Comparar diferentes versiones del agente en el mismo conjunto de datos
- Probar el impacto de mejoras individuales del pipeline (ingeniería de prompts, cambios en la lógica de descomposición)
- Experimentar con modelos: GPT-5.5 vs Claude vs otros
- Hacer seguimiento del progreso en el tiempo con visualización de mejoras
- Generar un informe completo sobre el porcentaje de bugs encontrados, omisiones y falsos positivos
Importante: un benchmark no significa "un conjunto de pruebas ideal." Significa un conjunto de pruebas controlado, donde las variables se minimizan y cada ejecución es reproducible.
Artefactos en una Sola Ejecución
Con cada ejecución, el agente prepara un paquete completo — requisitos documentados y su descomposición, escenarios de prueba con pasos, código de prueba automatizada listo, informe de cobertura y omisiones, registro de decisiones aceptadas y rechazadas. Todos los artefactos se almacenan en un repositorio público, para que puedas ver cómo el agente razona en diferentes ejemplos. Esto es útil no solo para hacer seguimiento del progreso, sino también para depuración: cuando el agente comete un error, puedes ver en qué paso del pipeline y por qué.
Lo que Esto Significa
Para los desarrolladores de herramientas QA, los benchmarks se vuelven obligatorios — es la única forma de ser honesto contigo mismo sobre la calidad del trabajo. El acceso abierto al proyecto de Fedorov demuestra que tal transparencia es posible. Otros equipos que trabajan con agentes AI en pruebas ahora saben qué necesita hacerse desde el principio.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.