Habr AI→ original

Por qué los chatbots RAG funcionan perfectamente en demos pero generan disparates en producción

Los chatbots RAG a menudo funcionan perfectamente en demos pero fallan en producción. Después de cuatro meses de desarrollo con Pinecone, parsing de PDF y OpenA

Por qué los chatbots RAG funcionan perfectamente en demos pero generan disparates en producción
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Un chatbot RAG para documentación interna se ve perfecto en demo—respondiendo cinco preguntas preseleccionadas con confianza y precisión. Pero en el momento en que el sistema llega a producción y empleados reales comienzan a hacer preguntas impredecibles, el bot comienza a producir alucinaciones confiantes. Aquí está la historia que se repite en empresas que invierten en LLMs: cuatro meses de desarrollo, Pinecone, análisis de PDF, integración OpenAI, y al final, un sistema que parece no funcionar.

Demo versus Realidad

El chatbot responde perfectamente cinco preguntas pre-preparadas: sobre política de vacaciones, proceso de compras, estructura de la empresa. Estas son preguntas reales, pero preguntas que ya conoces. La demostración ante la gerencia transcurre brillantemente. Todos ven la magia de un LLM trabajando con documentos internos. El contrato está firmado, el presupuesto está asignado. Luego en el sistema en vivo, un empleado hace una pregunta ligeramente fuera del patrón estándar. No es exactamente una pregunta simple. Y el bot responde con confiadas tonterías—alucinando información que no existe en los documentos, o inventando hechos como si siempre hubieran estado allí. El usuario pierde confianza después del primer error.

Dónde el Análisis Comienza a Romperse

Se gastaron dos semanas en análisis de PDF. Parecía simple, pero PDF es un formato infernal. Algunos documentos se convierten en un revoltijo de caracteres, otros pierden la estructura de tabla, otros aún confunden el orden de párrafos. Escribes un analizador para un tipo de documento, lo pruebas—todo funciona. Luego se carga un nuevo documento con un formato diferente al sistema, y el analizador comienza a producir basura. Incluso si los archivos de origen están en un formato, cualquier conjunto real de documentos contiene ruido: cartas escaneadas en lugar de versiones digitales, logotipos en lugar de texto, diferentes tamaños de fuente. Un día el análisis funciona, al día siguiente un nuevo documento quiebra todo.

El Problema de la Alucinación y Contexto Incompleto

Incluso si el análisis funciona perfectamente, el sistema RAG puede recuperar documentos de la base de datos vectorial incorrectamente. El modelo ve fragmentos de texto relevantes, pero no hay suficiente contexto para una respuesta completa, o los fragmentos se contradicen entre sí. Entonces el LLM, por naturaleza, 'llena los vacíos'—alucinando información que no existe en los documentos. En demo, pruebas en casos óptimos donde hay suficiente contexto. En producción, los usuarios preguntan sobre detalles dispersos en diferentes partes de documentos o formulados de manera completamente diferente. La base de datos vectorial no encuentra fragmentos relevantes, o los encuentra incompletamente. Como resultado:

  • El análisis se sale de control con nuevos formatos de documentos
  • La relevancia del contexto no garantiza que el modelo dé la respuesta correcta
  • El modelo alucina información en lugar de honestamente decir 'no sé'
  • Diferentes formulaciones en documentos no se encuentran por una sola consulta
  • La clasificación de relevancia a menudo no coincide con el resultado deseado

Entre Demo y Producción

En demo, controlas los datos de entrada—seleccionas preguntas que el sistema maneja bien. En producción, sucede lo opuesto: los empleados harán exactamente aquellas preguntas que el sistema no puede responder. Preguntarán sobre excepciones, casos límite, detalles que técnicamente existen en el documento pero no son el foco del analizador.

'Funciona al 90 por ciento en demo.

Funciona al 30 por ciento en producción,' — así es como los desarrolladores describen la situación después de la primera semana de uso en vivo.

Lo Que Esto Significa

Esto no significa que RAG en empresa sea imposible. Significa que RAG no es una tarea única de desarrollo y no es una arquitectura única que puedes copiar de GitHub. Es un proceso largo con manejo de excepciones, estrategias de fallback, bucles de retroalimentación de usuarios y reentrenamiento continuo en preguntas reales. RAG funciona no porque hayas elegido el almacén de vectores correcto, sino porque aceptaste que es un camino largo.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…