MWS AI y SberAI proponen DRAGOn — un benchmark dinámico para evaluar sistemas RAG
MWS AI, SberAI y socios académicos presentaron DRAGOn — un benchmark para sistemas RAG con corpus actualizado regularmente. En lugar de un conjunto estático…
Procesado por IA desde Habr AI; editado por Hamidun News
Investigadores de MWS AI, SberAI y varias universidades presentaron DRAGOn — un benchmark dinámico para evaluar sistemas RAG que operan en un corpus regularmente actualizado. El trabajo fue publicado en arXiv en julio de 2025 y en marzo de 2026 se incluyó en los materiales del EACL 2026 como una forma práctica de probar RAG en datos genuinamente nuevos, en lugar de en un conjunto de preguntas fijado hace mucho tiempo.
Por qué esto es difícil
La evaluación de RAG casi siempre se topa con el mismo problema: las pruebas quedan obsoletas más rápido que los sistemas mismos. Si un benchmark se construye sobre un corpus fijo, un modelo puede mostrar resultados altos no porque busque y vincule documentos bien, sino porque ya ha visto parte de los hechos durante el entrenamiento. A esto se suma otra complicación: en la calidad final, es difícil separar la contribución del recuperador de la del generador. Y la preparación manual de pares "pregunta-respuesta" para verificación continua es demasiado cara, lenta y apenas escala para equipos que quieren comparar regularmente nuevas versiones de sus pipelines.
Cómo está estructurado DRAGOn
Los autores proponen construir el benchmark como un pipeline. Los analizadores regularmente extraen materiales de fuentes de noticias, luego un módulo separado extrae hechos atómicos de los textos en forma de tripletas "sujeto-relación-objeto". Después, el sistema verifica las entidades contra Wikidata y descarta hechos ya conocidos, para que la muestra contenga precisamente conocimientos nuevos. A partir del grafo resultante, se construyen automáticamente preguntas de complejidad variable, y el propio benchmark puede lanzarse regularmente sin reensamblaje manual y con control de versiones claro.
- Simple — una pregunta sobre un hecho único
- Set — una enumeración de varios objetos con una relación común
- Multi-hop — una pregunta a través de una entidad intermedia
- Conditional — una respuesta basada en dos condiciones simultáneamente
Además de esto, los autores añadieron un leaderboard público y división en partes de evaluación públicas y privadas. La parte pública es necesaria para comparación abierta de resultados, y la privada es para verificación precisa contra el estándar de oro y protección contra ajuste a respuestas conocidas. Este formato hace que la comparación de diferentes configuraciones de RAG sea más justa: un equipo puede probar un nuevo recuperador, otro un nuevo generador, y ambos obtienen resultados comparables en un corpus fresco, en lugar de en un conjunto que el modelo ya podría haber aprendido.
Cómo funciona la verificación
Para evitar que los pares QA generados automáticamente se conviertan en ruido, DRAGOn los ejecuta a través de varios filtros. Primero, se verifica la corrección lingüística básica usando RuRoBERTa-large, luego las preguntas pasan por verificación NER a través de Natasha. Después de eso, se eliminan del conjunto ejemplos demasiado fáciles: si modelos pequeños como Qwen 2.
5 7B o LLaMa 3 8B responden sin depender del contexto, tal pregunta no es adecuada para evaluación justa de RAG y se excluye de la versión final. El control final de calidad lo realiza POLLUX 7B en modo LLM-as-a-Judge. El modelo evalúa gramaticalidad, naturalidad, corrección y dependencia de la pregunta del contexto, luego estas puntuaciones se verifican contra anotación humana.
En un experimento con 532 ejemplos, el juez automático mostró alta precisión, aunque resultó ser bastante riguroso. Después del filtrado, los autores mantienen 150 preguntas de calidad para cada categoría, luego prueban sistemas separadamente para recuperación y generación. En las pruebas, las combinaciones con Qwen 3 Embedding 8B y E5 Mistral 7B Instruct parecían más fuertes: la conclusión es simple — si el recuperador encuentra el contexto correcto, al generador le resulta notablemente más fácil dar una respuesta precisa.
Qué significa esto
DRAGOn es un intento de transformar la evaluación de RAG de una demostración única en un proceso continuamente actualizado. Para equipos que construyen búsqueda sobre documentos, noticias o bases de conocimiento internas, tal enfoque es útil porque reduce el riesgo de falsa confianza: un sistema puede dar respuestas bellas en datos familiares, pero fallar en hechos verdaderamente nuevos. Un benchmark dinámico ayuda a detectar esta diferencia antes y proporciona una imagen más honesta de cuán listo está RAG para trabajar en un entorno vivo.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.