OpenAI y Grok Pierden ante RAG Personalizado en el Desafío Legal Agentic RAG
En el Desafío Legal Agentic RAG, un equipo comparó soluciones listas de OpenAI y Grok, CAG, BM25 y su propio pipeline híbrido. El hallazgo: incluso modelos…
Procesado por IA desde Habr AI; editado por Hamidun News
Los autores del artículo analizaron cómo su equipo participó en el Agentic RAG Legal Challenge, una competencia internacional enfocada en responder preguntas basadas en PDFs legales. La conclusión principal resultó ser desagradablemente práctica: la victoria se decide no por el nombre ruidoso de un modelo, sino por la capacidad de anclar con precisión las respuestas a la página correcta del documento.
Cómo se Evaluaron los Sistemas
En el desafío, participaron más de 300 equipos, y el corpus consistía en decisiones judiciales reales, leyes y actos regulatorios de la DIFC en inglés. A los participantes se les dieron primero 30 documentos y 100 preguntas para calentamiento, luego casi 300 documentos y 900 preguntas para la fase final. Las preguntas en sí eran de diferentes tipos: fechas, números, nombres, listas, sí o no, y respuestas cortas de forma libre. Pero más importante que la precisión de la formulación fue la métrica de Grounding — si las páginas indicadas coincidían con donde se tomó realmente la respuesta.
"Incluso una respuesta perfecta se anula si indicaste la página equivocada."
Con base en esto, el equipo construyó su propio pipeline: los PDFs se convirtieron a Markdown, se dividieron en chunks semánticos, se agregó contexto para cada chunk, se calcularon embeddings densos y dispersos, y todo se almacenó en Qdrant. Parte del trabajo se realizó localmente en una Mac Studio M3 Ultra. La máquina manejó rápidamente el análisis de 30 PDFs e incrustaciones locales, pero generar contexto para chunks resultó ser demasiado lento: debido a un prefill largo, cada chunk tomaba 15-20 segundos, por lo que esta etapa tuvo que moverse a una API externa.
Quién Falló Primero
Los autores primero probaron el enfoque más perezoso: simplemente cargar documentos en la base de conocimiento integrada de OpenAI. La solución se veía decente en papel, pero en métricas dio un Total de 0.362: las respuestas a menudo eran buenas, pero la cita de página lo rompió todo. Luego probaron CAG, donde casi todo el corpus se envía al modelo de una vez, sin búsqueda en chunks. Un experimento con Qwen 3.5 Flash y un contexto de hasta 1 millón de tokens mostró que CAG no es inútil: la precisión era alta, pero Grounding lo decepcionó nuevamente. BM25 simple funcionó aún peor y resultó ser el intento más débil. De esta ejecución, surgieron varias conclusiones desagradables pero útiles:
- las bases de conocimiento integradas de grandes jugadores no garantizan buena citación;
- CAG puede responder con precisión, pero sin ancla cuidadosa a páginas pierde en la puntuación final;
- BM25 clásico solo ya no puede manejar preguntas legales complejas;
- RAG híbrido con reranking apropiado resultó ser más fuerte que las soluciones integradas de OpenAI y Grok.
Su propio sistema MORAG tampoco impresionó al principio: un pequeño Qwen local tuvo dificultades para mantener la precisión y especialmente se desplomó en preguntas multi-documento. El avance llegó después de cambiar a Grok a través de OpenRouter y una selección de chunks más estricta. En calentamiento, el equipo subió de un Total de 0.362 en las primeras ejecuciones a 0.780 en el intento final, y Grounding creció de aproximadamente 0.45 a 0.90. Este crecimiento, no el reemplazo de un modelo de tendencia por otro, se convirtió en el factor principal en el progreso.
Lo Que Realmente Ayudó
Las ganancias más significativas vinieron no de "mejoras abstractas de calidad", sino de varias soluciones de ingeniería muy concretas. El equipo dividió los modos de reasoning y non-reasoning por tipos de preguntas, agregó un bucle agentivo con búsqueda repetida si los datos eran insuficientes, y por separado construyó un gold set para verificar respuestas en 900 preguntas. Esto les permitió evitar disparar a ciegas en las finales y encontrar rápidamente errores sistémicos como malinterpretar el lenguaje sobre un recurso presentado pero rechazado.
- los modelos de reasoning se mantuvieron para boolean, name y names, donde non-reasoning perdía 8-16% de precisión;
- para date, number y free_text, usaron un modo non-reasoning más rápido sin pérdida notable;
- agregaron las primeras 1-3 páginas de documentos mencionados en la pregunta a la búsqueda, porque los detalles clave del caso a menudo se encuentran allí;
- reconstruyeron summaries y vectores dispersos para el dominio legal;
- confinaron chunks al límite del embedder FRIDA, que corta todo lo que sea más largo de 512 tokens.
En la fase final, MORAG quedó por debajo del golden submission preparado en el Total general—0.603 versus 0.631, pero superó en tres de cinco métricas: en la precisión de respuestas determinísticas, en la calidad de respuestas de forma libre y en velocidad. La pérdida vino nuevamente de Grounding. Este es un detalle importante: el sistema RAG en sí ya estaba respondiendo mejor que la baseline "manual", pero el anclaje técnico de la respuesta a la página correcta aún se rezagaba.
Qué Significa Esto
Esta historia ilustra bien que CAG no mató a RAG, Mac Studio es adecuado para partes de un pipeline local, y las bases listas del OpenAI y Grok no reemplazan la sintonización para un corpus específico. Si los datos son complejos, la victoria va no a la marca más ruidosa, sino al equipo que sabe cómo medir errores, controlar chunking, y llevar Grounding a un estado funcional.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.