RAGAS y métricas de RAG: cómo dejar de adivinar y empezar a medir la calidad
Los sistemas RAG a menudo introducen alucinaciones o pierden contexto relevante. RAGAS ofrece cuatro métricas automáticas: Faithfulness (fidelidad al contexto),

Los sistemas RAG están ganando popularidad, pero frecuentemente producen respuestas incorrectas, añaden hechos fabricados o ignoran contexto relevante. En la tercera parte de nuestro ciclo sobre ingeniería de calidad, exploraremos cómo medir RAG en lugar de adivinar, y cómo usar RAGAS — un framework que sustituye la verificación manual con automatización.
Por qué las métricas RAG son más difíciles que las métricas LLM
Un LLM estándar puede evaluarse en conjuntos de referencia: MMLU, HumanEval, TruthfulQA. RAG añade una capa de recuperación — emergen nuevos modos de fallo. Una pregunta como "¿Cuál era el salario de Gates en 1997?" puede fallar de varias maneras:
- El motor de búsqueda no encontró un documento relevante — la búsqueda devolvió ruido
- El modelo encontró el documento pero ignoró el hecho relevante — falta de atención
- El modelo encontró el hecho pero añadió alucinación encima — mezclando fuente y fabricación
- El contexto era relevante, pero la respuesta no coincide con la pregunta — error lógico
Para gestionar estos escenarios, se necesitan métricas especializadas. La verificación manual de cada respuesta es cara y no se escala a miles de consultas.
RAGAS: cuatro métricas para todos los casos
RAGAS — un framework de Basis AI para evaluación automática de RAG. Aquí están sus métricas principales:
- Faithfulness — ¿es la respuesta generada fiel al contexto? El modelo verifica si el LLM añadió hechos no presentes en las fuentes. La puntuación va de 0 a 1.
- Answer Relevance — ¿la respuesta coincide con la pregunta? RAGAS genera una pregunta inversa a partir de la respuesta y compara semánticamente.
- Context Precision — ¿son relevantes los fragmentos recuperados? Verifica si el motor de búsqueda confundió la dirección o devolvió ruido.
- Context Recall — ¿completitud del contexto? ¿Estaba toda la información necesaria en los documentos para una respuesta completa a la pregunta.
Cada métrica señala un cuello de botella: recuperación deficiente, generación deficiente, o ambas.
Cómo RAGAS evalúa internamente
No hay magia aquí — RAGAS utiliza el propio LLM como árbitro. Para Faithfulness, toma la respuesta generada y el contexto, pide al modelo que identifique afirmaciones que pueden verificarse (factual claims), luego verifica cada una contra el contexto uno por uno. Si una afirmación es respaldada por un hecho en la fuente — la puntuación aumenta.
Para Answer Relevance, genera una pregunta hipotética a partir de la respuesta (inversa), luego calcula la similitud coseno (distancia semántica) a la pregunta original. Cuanto mayor sea la coincidencia, más relevante es la respuesta.
"Si su LLM sabe cómo mentir, sabe cómo detectar mentiras", — la lógica
del framework.
Todo el proceso requiere llamadas a LLM (para cada respuesta — mínimo 2-3 llamadas), por lo que RAGAS se considera caro en tokens. Pero la alternativa — contratar personas para etiquetado — es aún más cara y lenta.
Qué significa esto
RAGAS hace que la ingeniería RAG sea reproducible y rastreable. En lugar del cualitativo "parece funcionar", obtiene métricas cuantitativas que rastrean cómo cada actualización (nuevos documentos, nuevo modelo, nuevo prompt) afecta la calidad.
Para pequeños proyectos personales, RAGAS puede ser excesivo. Para soluciones empresariales, donde los errores cuestan dinero y confianza del cliente, es la tabla periódica que los ingenieros RAG han estado extrañando durante mucho tiempo.