Habr AI→ original

Por que chatbots RAG funcionam perfeitamente em demos mas geram disparates em produção

Chatbots RAG frequentemente funcionam perfeitamente em demos mas quebram em produção. Após quatro meses de desenvolvimento com Pinecone, parsing de PDF e OpenAI

Por que chatbots RAG funcionam perfeitamente em demos mas geram disparates em produção
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um chatbot RAG para documentação interna parece perfeito na demo—respondendo cinco perguntas pré-selecionadas com confiança e precisão. Mas assim que o sistema chega à produção e funcionários reais começam a fazer perguntas imprevisíveis, o bot começa a produzir alucinações confiantes. Aqui está a história que se repete em empresas que investem em LLMs: quatro meses de desenvolvimento, Pinecone, análise de PDF, integração OpenAI, e no final, um sistema que parece não funcionar.

Demo versus Realidade

O chatbot responde perfeitamente cinco perguntas pré-preparadas: sobre política de férias, processo de compras, estrutura da empresa. Estas são perguntas reais, mas perguntas que você já conhece. A demonstração para a gerência transcorre brilhantemente. Todos veem a mágica de um LLM trabalhando com documentos internos. O contrato é assinado, o orçamento é alocado. Depois no sistema ao vivo, um funcionário faz uma pergunta ligeiramente fora do padrão. Não é exatamente uma pergunta simples. E o bot responde com confiante disparate—alucinando informações que não existem nos documentos, ou inventando fatos como se sempre tivessem estado lá. O usuário perde a confiança após o primeiro erro.

Onde o Parsing Começa a Quebrar

Duas semanas foram gastas em análise de PDF. Parecia simples, mas PDF é um formato infernal. Alguns documentos se convertem em uma confusão de caracteres, outros perdem a estrutura da tabela, ainda outros embaralham a ordem dos parágrafos. Você escreve um analisador para um tipo de documento, testa nele—tudo funciona. Depois um novo documento com um formato diferente é carregado no sistema, e o analisador começa a produzir lixo. Mesmo que os arquivos de origem estejam em um formato, qualquer conjunto real de documentos contém ruído: cartas digitalizadas em vez de versões digitais, logotipos em vez de texto, tamanhos de fonte diferentes. Um dia a análise funciona, no dia seguinte um novo documento quebra tudo.

O Problema da Alucinação e Contexto Incompleto

Mesmo que o parsing funcione perfeitamente, o sistema RAG pode recuperar documentos do banco de dados vetorial incorretamente. O modelo vê pedaços de texto relevantes, mas não há contexto suficiente para uma resposta completa, ou os pedaços se contradizem. Então o LLM, por natureza, 'preenche as lacunas'—alucinando informações que não existem nos documentos. Na demo, você testa em casos ótimos onde há contexto suficiente. Em produção, os usuários perguntam sobre detalhes espalhados em diferentes partes dos documentos ou formulados de forma completamente diferente. O banco de dados vetorial falha em encontrar pedaços relevantes, ou os encontra incompletamente. Como resultado:

  • O parsing sai do controle com novos formatos de documentos
  • A relevância do contexto não garante que o modelo dê a resposta correta
  • O modelo alucina informações em vez de honestamente dizer 'não sei'
  • Diferentes formulações nos documentos não são encontradas por uma única consulta
  • A classificação de relevância frequentemente não corresponde ao resultado desejado

Entre Demo e Produção

Na demo, você controla os dados de entrada—seleciona perguntas que o sistema maneja bem. Em produção, acontece o oposto: os funcionários farão exatamente aquelas perguntas que o sistema não consegue responder. Eles perguntarão sobre exceções, casos extremos, detalhes que tecnicamente existem no documento mas não são o foco do analisador.

'Funciona a 90 por cento na demo.

Funciona a 30 por cento em produção,' — é assim que os desenvolvedores descrevem a situação após a primeira semana de uso ao vivo.

O Que Isso Significa

Isso não significa que RAG em empresa seja impossível. Isso significa que RAG não é uma tarefa única de desenvolvimento e não é uma arquitetura única que você pode copiar do GitHub. É um processo longo com tratamento de exceções, estratégias de fallback, loops de feedback de usuários e retrainamento contínuo em perguntas reais. RAG funciona não porque você escolheu o armazenamento de vetores certo, mas porque você aceitou que é um longo caminho.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…