Habr AI→ original

Cómo Bitrix24 construyó eval y automatizó la optimización del agente RAG Martha

Un desarrollador de Bitrix24 explicó cómo construyó un sistema eval integral para el asistente de IA Martha: conjuntos de datos especializados y sintéticos…

Procesado por IA desde Habr AI; editado por Hamidun News
Cómo Bitrix24 construyó eval y automatizó la optimización del agente RAG Martha
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

El equipo de Bitrix24 publicó la segunda parte de un desglose técnico del sistema RAG para el asistente de IA Martha. La primera fue sobre el pipeline de retrieval y la búsqueda en la base de conocimientos. Ahora — sobre cómo medir la calidad de toda la cadena en su conjunto, por qué las métricas de retrieval aisladas no son suficientes y cómo automatizar el ciclo de experimentos para que cada cambio pueda verificarse sistemáticamente.

Las Métricas de Retrieval Engañan

Las métricas clásicas de búsqueda — precision, recall, MRR — muestran qué tan precisamente el sistema encuentra los documentos correctos. Pero no responden a la pregunta principal: ¿recibió el usuario una respuesta útil? Los desarrolladores de Bitrix24 se enfrentaron a la trampa típica de RAG en producción: las métricas de retrieval crecían de experimento a experimento, pero la calidad real de las respuestas de Martha mejoraba desproporcionadamente — y a veces no mejoraba.

Retrieval y generation son eslabones diferentes de la misma cadena. Mejorar la búsqueda no garantiza mejorar la respuesta final.

La solución es un sistema de eval end-to-end que evalúe la respuesta final visible para el usuario, no solo el resultado intermedio de la búsqueda.

Dos Tipos de Conjuntos de Datos

La base del sistema de evaluación son dos conjuntos de datos con características fundamentalmente diferentes:

  • Conjunto de datos experto — preguntas y respuestas de referencia escritas manualmente por especialistas que conocen bien el producto. Preciso y confiable: si el sistema comete un error aquí, el problema es obvio. La desventaja — caro de crear, difícil de escalar.
  • Conjunto de datos sintético — pares de pregunta-respuesta generados automáticamente basados en la documentación del producto. Se crea rápidamente y en gran volumen, pero requiere filtración: la generación con LLM inevitablemente introduce ruido y artefactos.

Ambos conjuntos de datos funcionan juntos. El conjunto de datos experto cubre escenarios críticamente importantes, el conjunto de datos sintético cubre la cola larga de consultas que no se pueden alcanzar manualmente. Esta combinación proporciona una visión más completa de la calidad que cualquier enfoque por separado.

Ciclo de Optimización Cerrado

El resultado práctico clave de la segunda parte es la automatización del ciclo de experimentos. Anteriormente, cada cambio en el pipeline de retrieval requería verificación manual: ejecutar eval, recopilar métricas, comparar con la versión anterior, tomar una decisión. Lento, subjetivo e inapropiado para escalar.

El nuevo sistema cierra el ciclo:

  • el cambio entra en el pipeline
  • eval se ejecuta automáticamente en ambos conjuntos de datos
  • las métricas se comparan con baseline
  • las regresiones se corrigen inmediatamente y no van a producción
  • el historial de experimentos se acumula de forma estructurada

Esencialmente, es CI/CD para la calidad de respuesta. Cada experimento deja un rastro, el equipo ve qué soluciones funcionan sistemáticamente, no por casualidad. Esto es especialmente importante cuando el pipeline RAG consta de varios componentes interdependientes.

Cuando las Métricas Divergen

Una de las observaciones clave del artículo: las métricas de retrieval y las métricas de calidad de respuesta final pueden moverse en direcciones opuestas — y esto es normal. La búsqueda más precisa a veces devuelve documentos que son técnicamente relevantes pero no ayudan al LLM a formular una buena respuesta: demasiado largos, demasiado técnicos o duplicándose entre sí.

Por el contrario, un retrieval menos agresivo a veces produce un resultado mejor porque el contexto es más compacto y limpio para la generación.

"RAG en producción es un trabajo constante con retrieval, ruido y latencia."

La visión final de la calidad es siempre varias métricas funcionando juntas. Enfocarse en una sola significa optimizar la cosa incorrecta.

Lo Que Esto Significa

La experiencia de Bitrix24 muestra cómo se ve un enfoque maduro para RAG en producción: no "lanzar y esperar", sino trabajo sistemático con conjuntos de datos, métricas end-to-end y ciclos de eval automatizados. Este proceso transforma la optimización de una serie de adivinanzas intuitivas en una disciplina de ingeniería gestionada — con experimentos reproducibles e un historial claro de decisiones.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…