Habr AI→ original

Cómo dejar de adivinar y empezar a medir la calidad de los agentes de AI

El equipo de Bitrix24 explicó cómo, en seis meses, pasó de las pruebas manuales de su agente de AI, Marta, a un sistema automatizado de benchmarks. El…

Procesado por IA desde Habr AI; editado por Hamidun News
Cómo dejar de adivinar y empezar a medir la calidad de los agentes de AI
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Cada equipo que ha enviado un agente AI a producción eventualmente se enfrenta a la misma pesadilla. Un usuario escribe al soporte: "tu bot está diciendo tonterías". Un desarrollador abre los logs, mira el prompt, mira la respuesta — y no puede determinar qué exactamente salió mal. ¿Es una regresión después del commit de ayer? ¿Un efecto secundario del cambio de modelo? ¿O simplemente un caso extremo desafortunado que siempre existió? El equipo Bitrix24 pasó por todas las etapas de este proceso con su agente AI Martha — y ahora están compartiendo las lecciones que todos los que trabajan con grandes modelos de lenguaje en producción deberían aprender.

Martha es un asistente AI dentro del ecosistema Bitrix24 que interactúa con CRM, gestiona tareas y responde preguntas de usuarios. En las primeras etapas, todo parecía simple: abrir un chat, hacer una pregunta, mirar la respuesta con tus propios ojos. Prueba manual clásica, que funciona mientras el agente pueda hacer diez cosas. Pero en cuanto la funcionalidad de Martha creció, este enfoque comenzó a fallar. Un ingeniero no puede físicamente ejecutar doscientos escenarios después de cada revisión de prompt. Y las revisiones de prompts en el desarrollo moderno de productos AI no son la excepción — son rutina diaria.

El problema que describe el equipo es de naturaleza sistémica. La ingeniería de prompts es inherentemente inestable por naturaleza: el menor cambio en la formulación de una instrucción puede afectar impredeciblemente el comportamiento del modelo en docenas de contextos diferentes. Añade a esto cambios periódicos de versión del modelo de los proveedores, actualizaciones de prompts del sistema, expansión del conjunto de herramientas disponibles para el agente — y obtienes una explosión combinatoria de posibles puntos de fallo. Sin control automático de calidad, el equipo efectivamente trabaja a ciegas, reaccionando a problemas después del hecho en lugar de prevenirlos.

La solución a la que llegó Bitrix24 fue construir un sistema completo de benchmarks. La esencia del enfoque es formalizar las expectativas del agente AI como un conjunto de escenarios de prueba con criterios de éxito medibles. Estas no son pruebas unitarias en el sentido clásico: las respuestas del modelo de lenguaje son no-determinísticas, y verificarlas para una correspondencia exacta es inútil. En su lugar, se utilizan métricas que evalúan relevancia, integridad, corrección de invocación de herramientas y alineación con el tono de comunicación. Esencialmente, el equipo está construyendo un análogo automatizado de evaluación de expertos que se puede ejecutar después de cada cambio.

El camino desde la idea hasta un sistema funcionante tomó aproximadamente medio año — y este es un número honesto que dice mucho sobre la madurez de las herramientas en esta área. Las soluciones listas para usar que puedas comprar y conectar a un agente AI arbitrario prácticamente no existen. Cada equipo tiene que descubrir independientemente qué métricas reflejan la calidad de su producto específico, cómo generar y mantener conjuntos de datos de prueba en forma actual, cómo interpretar resultados e integrar benchmarks en el pipeline CI/CD. Bitrix24 enfatiza que su enfoque no está vinculado a un stack específico — y quizás esta es la parte más valiosa de su experiencia.

La historia de Martha refleja una tendencia más amplia en la industria. A medida que los agentes AI hacen la transición de la categoría de experimentos a la categoría de herramientas críticas para el negocio, los requisitos de confiabilidad crecen exponencialmente. Empresas como Anthropic, OpenAI y Google invierten en sistemas de evaluación de modelos a nivel de plataforma, pero a nivel de productos específicos, la responsabilidad de la calidad sigue recayendo en los equipos de desarrollo. El problema se agrava por el hecho de que los usuarios rápidamente pierden confianza en un asistente AI después de algunas respuestas fallidas, y recuperar esa confianza es significativamente más difícil que perderla.

Merece atención especial el cambio cultural detrás de esta transición. Las pruebas manuales de agentes AI no son simplemente una práctica ineficiente — es una falsa sensación de control. Un ingeniero que ha probado veinte escenarios de doscientos tiende a pensar que el sistema funciona correctamente, cuando en realidad ha probado solo el diez por ciento de la superficie. Los benchmarks automatizados no eliminan completamente la incertidumbre, pero la hacen visible y medible. Y lo que se puede medir se puede mejorar.

La experiencia de Bitrix24 es una señal para toda la industria de desarrollo de AI en lengua rusa. La era en que un agente AI podría ser enviado a producción con las palabras "parece funcionar" está llegando a su fin. Por delante hay una era de métricas, benchmarks y control de calidad continuo. Y los equipos que dominen estas prácticas primero obtendrán una ventaja decisiva en la lucha por la confianza del usuario.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…