10 enfoques RAG que realmente funcionan en producción: de lo básico a GraphRAG
Un desarrollador en Habr compiló una lista práctica de enfoques RAG que se utilizan realmente en producción. La búsqueda híbrida (densa + BM25) ofrece…
Procesado por IA desde Habr AI; editado por Hamidun News
Un desarrollador en Habr compiló una lista práctica de enfoques RAG que realmente se utilizan en producción — basada en experiencia personal y análisis de casos de terceros durante el último año de crecimiento activo de la pila LLM.
Por Dónde Comienza Todos
Naive RAG — el punto de partida para la mayoría de los proyectos. El esquema es simple: los documentos se dividen en chunks, se indexan mediante embeddings, y cuando se consultan, se encuentran los más cercanos por distancia del coseno y se pasan al LLM como contexto. Funciona en bases de conocimiento pequeñas con preguntas simples y documentos homogéneos. Los problemas comienzan a escala: los documentos largos no encajan bien en chunks fijos, las preguntas complejas requieren múltiples fragmentos simultáneamente, y las formulaciones del usuario frecuentemente no coinciden con el estilo de los documentos. Aquí es donde entran en juego enfoques avanzados.
Búsqueda Híbrida y Reranking
La búsqueda híbrida — la primera mejora que casi siempre vale la pena. Combinar vectores densos (búsqueda semántica) con BM25 (búsqueda por palabras clave) proporciona consistentemente +15–30% de mejora de precisión en comparación con solo búsqueda por embedding. Los vectores densos capturan similitud semántica, los dispersos — coincidencias exactas en términos, abreviaciones y nombres. Agregar un reranker cross-encoder sobre los 20 principales resultados aumenta aún más la calidad en 10–15%. El reranker es un modelo más pesado, pero funciona solo en el conjunto final de candidatos, por lo que la latencia sigue siendo aceptable para producción.
Técnicas a Nivel de Consulta
Algunos problemas de RAG se resuelven más eficientemente antes de la búsqueda — a través de reformulación o expansión de la consulta.
- HyDE — el LLM genera un documento-respuesta hipotético, su vector se usa para la búsqueda. Particularmente útil cuando el estilo de la pregunta y el estilo de los documentos difieren significativamente.
- Multi-query — de una pregunta, se generan 3–5 paráfrasis, la búsqueda ocurre en paralelo en todas ellas. Reduce la dependencia de la formulación exacta del usuario.
- Step-back prompting — antes de la búsqueda, el LLM generaliza la consulta a un nivel más alto de abstracción. Útil cuando la pregunta específica es demasiado nicho para una buena recuperación.
- Parent Document Retriever — se indexan chunks pequeños (alta precisión) y se pasa el documento padre como un todo al contexto. Buen equilibrio entre precisión y cobertura.
- Contextual compression — el LLM extrae solo la parte relevante del chunk encontrado. Ahorra tokens y reduce ruido en el contexto.
Artillería Pesada
Cuando las técnicas simples no son suficientes, se activan enfoques arquitectónicamente más complejos.
RAPTOR construye un árbol jerárquico de documentos: agrupa chunks, sumariza cada cluster, luego agrupa resúmenes nuevamente. En la consulta, la búsqueda ocurre en el nivel necesario de abstracción. Funciona bien en documentos largos — manuales técnicos, informes financieros, libros con diferentes niveles de detalle.
GraphRAG de Microsoft construye un grafo de conocimiento: extrae entidades y relaciones del texto, crea resúmenes de comunidad para diferentes clusters temáticos. Supera consistentemente RAG estándar en preguntas analíticas y comparativas — "cómo está relacionado X con Y", "qué cambió desde el punto A" — y en tareas que requieren síntesis en todo el corpus.
Self-RAG y Corrective RAG cambian el sistema al modo agente: el modelo en sí decide si se necesita búsqueda, evalúa la relevancia de lo encontrado y reformula la consulta si es necesario. Agrega latencia y complejidad, pero notablemente aumenta la calidad en tareas de múltiples pasos y ambiguas.
Qué Significa Esto
Camino práctico: comience con búsqueda híbrida más reranking — esto cubre la mayoría de los problemas con costos mínimos. Luego agregue multi-query o HyDE para consultas diversas. Conecte GraphRAG y Self-RAG solo cuando técnicas más simples fallen: requieren costos significativos de desarrollo y mantenimiento. Para la mayoría de los productos B2B, los dos primeros pasos son suficientes.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.