Habr AI→ original

10 enfoques RAG que realmente funcionan en producción: de lo básico a GraphRAG

Un desarrollador en Habr compiló una lista práctica de enfoques RAG que se utilizan realmente en producción. La búsqueda híbrida (densa + BM25) ofrece…

Procesado por IA desde Habr AI; editado por Hamidun News
10 enfoques RAG que realmente funcionan en producción: de lo básico a GraphRAG
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Un desarrollador en Habr compiló una lista práctica de enfoques RAG que realmente se utilizan en producción — basada en experiencia personal y análisis de casos de terceros durante el último año de crecimiento activo de la pila LLM.

Por Dónde Comienza Todos

Naive RAG — el punto de partida para la mayoría de los proyectos. El esquema es simple: los documentos se dividen en chunks, se indexan mediante embeddings, y cuando se consultan, se encuentran los más cercanos por distancia del coseno y se pasan al LLM como contexto. Funciona en bases de conocimiento pequeñas con preguntas simples y documentos homogéneos. Los problemas comienzan a escala: los documentos largos no encajan bien en chunks fijos, las preguntas complejas requieren múltiples fragmentos simultáneamente, y las formulaciones del usuario frecuentemente no coinciden con el estilo de los documentos. Aquí es donde entran en juego enfoques avanzados.

Búsqueda Híbrida y Reranking

La búsqueda híbrida — la primera mejora que casi siempre vale la pena. Combinar vectores densos (búsqueda semántica) con BM25 (búsqueda por palabras clave) proporciona consistentemente +15–30% de mejora de precisión en comparación con solo búsqueda por embedding. Los vectores densos capturan similitud semántica, los dispersos — coincidencias exactas en términos, abreviaciones y nombres. Agregar un reranker cross-encoder sobre los 20 principales resultados aumenta aún más la calidad en 10–15%. El reranker es un modelo más pesado, pero funciona solo en el conjunto final de candidatos, por lo que la latencia sigue siendo aceptable para producción.

Técnicas a Nivel de Consulta

Algunos problemas de RAG se resuelven más eficientemente antes de la búsqueda — a través de reformulación o expansión de la consulta.

  • HyDE — el LLM genera un documento-respuesta hipotético, su vector se usa para la búsqueda. Particularmente útil cuando el estilo de la pregunta y el estilo de los documentos difieren significativamente.
  • Multi-query — de una pregunta, se generan 3–5 paráfrasis, la búsqueda ocurre en paralelo en todas ellas. Reduce la dependencia de la formulación exacta del usuario.
  • Step-back prompting — antes de la búsqueda, el LLM generaliza la consulta a un nivel más alto de abstracción. Útil cuando la pregunta específica es demasiado nicho para una buena recuperación.
  • Parent Document Retriever — se indexan chunks pequeños (alta precisión) y se pasa el documento padre como un todo al contexto. Buen equilibrio entre precisión y cobertura.
  • Contextual compression — el LLM extrae solo la parte relevante del chunk encontrado. Ahorra tokens y reduce ruido en el contexto.

Artillería Pesada

Cuando las técnicas simples no son suficientes, se activan enfoques arquitectónicamente más complejos.

RAPTOR construye un árbol jerárquico de documentos: agrupa chunks, sumariza cada cluster, luego agrupa resúmenes nuevamente. En la consulta, la búsqueda ocurre en el nivel necesario de abstracción. Funciona bien en documentos largos — manuales técnicos, informes financieros, libros con diferentes niveles de detalle.

GraphRAG de Microsoft construye un grafo de conocimiento: extrae entidades y relaciones del texto, crea resúmenes de comunidad para diferentes clusters temáticos. Supera consistentemente RAG estándar en preguntas analíticas y comparativas — "cómo está relacionado X con Y", "qué cambió desde el punto A" — y en tareas que requieren síntesis en todo el corpus.

Self-RAG y Corrective RAG cambian el sistema al modo agente: el modelo en sí decide si se necesita búsqueda, evalúa la relevancia de lo encontrado y reformula la consulta si es necesario. Agrega latencia y complejidad, pero notablemente aumenta la calidad en tareas de múltiples pasos y ambiguas.

Qué Significa Esto

Camino práctico: comience con búsqueda híbrida más reranking — esto cubre la mayoría de los problemas con costos mínimos. Luego agregue multi-query o HyDE para consultas diversas. Conecte GraphRAG y Self-RAG solo cuando técnicas más simples fallen: requieren costos significativos de desarrollo y mantenimiento. Para la mayoría de los productos B2B, los dos primeros pasos son suficientes.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…