Habr AI→ original

RAGAS y métricas de RAG: cómo dejar de adivinar y empezar a medir la calidad

Los sistemas RAG a menudo introducen alucinaciones o pierden contexto relevante. RAGAS ofrece cuatro métricas automáticas: Faithfulness (fidelidad al contexto),

RAGAS y métricas de RAG: cómo dejar de adivinar y empezar a medir la calidad
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Los sistemas RAG están ganando popularidad, pero frecuentemente producen respuestas incorrectas, añaden hechos fabricados o ignoran contexto relevante. En la tercera parte de nuestro ciclo sobre ingeniería de calidad, exploraremos cómo medir RAG en lugar de adivinar, y cómo usar RAGAS — un framework que sustituye la verificación manual con automatización.

Por qué las métricas RAG son más difíciles que las métricas LLM

Un LLM estándar puede evaluarse en conjuntos de referencia: MMLU, HumanEval, TruthfulQA. RAG añade una capa de recuperación — emergen nuevos modos de fallo. Una pregunta como "¿Cuál era el salario de Gates en 1997?" puede fallar de varias maneras:

  • El motor de búsqueda no encontró un documento relevante — la búsqueda devolvió ruido
  • El modelo encontró el documento pero ignoró el hecho relevante — falta de atención
  • El modelo encontró el hecho pero añadió alucinación encima — mezclando fuente y fabricación
  • El contexto era relevante, pero la respuesta no coincide con la pregunta — error lógico

Para gestionar estos escenarios, se necesitan métricas especializadas. La verificación manual de cada respuesta es cara y no se escala a miles de consultas.

RAGAS: cuatro métricas para todos los casos

RAGAS — un framework de Basis AI para evaluación automática de RAG. Aquí están sus métricas principales:

  • Faithfulness — ¿es la respuesta generada fiel al contexto? El modelo verifica si el LLM añadió hechos no presentes en las fuentes. La puntuación va de 0 a 1.
  • Answer Relevance — ¿la respuesta coincide con la pregunta? RAGAS genera una pregunta inversa a partir de la respuesta y compara semánticamente.
  • Context Precision — ¿son relevantes los fragmentos recuperados? Verifica si el motor de búsqueda confundió la dirección o devolvió ruido.
  • Context Recall — ¿completitud del contexto? ¿Estaba toda la información necesaria en los documentos para una respuesta completa a la pregunta.

Cada métrica señala un cuello de botella: recuperación deficiente, generación deficiente, o ambas.

Cómo RAGAS evalúa internamente

No hay magia aquí — RAGAS utiliza el propio LLM como árbitro. Para Faithfulness, toma la respuesta generada y el contexto, pide al modelo que identifique afirmaciones que pueden verificarse (factual claims), luego verifica cada una contra el contexto uno por uno. Si una afirmación es respaldada por un hecho en la fuente — la puntuación aumenta.

Para Answer Relevance, genera una pregunta hipotética a partir de la respuesta (inversa), luego calcula la similitud coseno (distancia semántica) a la pregunta original. Cuanto mayor sea la coincidencia, más relevante es la respuesta.

"Si su LLM sabe cómo mentir, sabe cómo detectar mentiras", — la lógica

del framework.

Todo el proceso requiere llamadas a LLM (para cada respuesta — mínimo 2-3 llamadas), por lo que RAGAS se considera caro en tokens. Pero la alternativa — contratar personas para etiquetado — es aún más cara y lenta.

Qué significa esto

RAGAS hace que la ingeniería RAG sea reproducible y rastreable. En lugar del cualitativo "parece funcionar", obtiene métricas cuantitativas que rastrean cómo cada actualización (nuevos documentos, nuevo modelo, nuevo prompt) afecta la calidad.

Para pequeños proyectos personales, RAGAS puede ser excesivo. Para soluciones empresariales, donde los errores cuestan dinero y confianza del cliente, es la tabla periódica que los ingenieros RAG han estado extrañando durante mucho tiempo.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…