Habr AI→ original

OpenAI e Grok Perdem para RAG Personalizado no Desafio Legal Agentic RAG

No Desafio Legal Agentic RAG, uma equipe comparou soluções prontas do OpenAI e Grok, CAG, BM25 e seu próprio pipeline híbrido. O achado: até modelos…

Processado por IA de Habr AI; editado por Hamidun News
OpenAI e Grok Perdem para RAG Personalizado no Desafio Legal Agentic RAG
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Os autores do artigo analisaram como seu time participou do Agentic RAG Legal Challenge—uma competição internacional focada em responder perguntas baseadas em PDFs legais. A conclusão principal se mostrou desagradavelmente prática: a vitória é determinada não por um nome de modelo famoso, mas pela capacidade de fundamentar com precisão as respostas na página correta do documento.

Como os Sistemas Foram Avaliados

No desafio, mais de 300 equipes participaram, e o corpus consistiu em decisões judiciais reais, leis e atos regulatórios do DIFC em inglês. Os participantes receberam primeiro 30 documentos e 100 perguntas para aquecimento, depois quase 300 documentos e 900 perguntas para a fase final. As próprias perguntas eram de tipos diferentes: datas, números, nomes, listas, sim ou não, e respostas de forma livre curta. Mas mais importante que a precisão da formulação era a métrica de Grounding — se as páginas indicadas correspondiam a onde a resposta foi realmente extraída.

"Mesmo uma resposta perfeita se torna zero se você indicou a página errada."

Com base nisso, o time construiu seu próprio pipeline: PDFs foram convertidos para Markdown, divididos em chunks semânticos, contexto foi adicionado para cada chunk, embeddings densos e esparsos foram computados, e tudo foi armazenado no Qdrant. Parte do trabalho foi realizada localmente em um Mac Studio M3 Ultra. A máquina lidou rapidamente com análise de 30 PDFs e embeddings locais, mas gerar contexto para chunks se provou muito lento: devido a um prefill longo, cada chunk levava 15-20 segundos, então esse estágio teve que ser movido para uma API externa.

Quem Falhou Primeiro

Os autores testaram primeiro a abordagem mais preguiçosa — simplesmente carregar documentos na base de conhecimento integrada do OpenAI. A solução parecia decente no papel, mas nas métricas deu um Total de 0.362: as respostas eram frequentemente boas, mas a citação de página quebrou tudo. Depois testaram CAG, onde quase todo o corpus é enviado para o modelo de uma vez, sem busca em chunks. Um experimento com Qwen 3.5 Flash e um contexto de até 1 milhão de tokens mostrou que CAG não é inútil: a precisão era alta, mas Grounding o decepcionou novamente. BM25 simples teve um desempenho ainda pior e se mostrou a tentativa mais fraca. Desse teste, emergiram várias conclusões desagradáveis mas úteis:

  • bases de conhecimento integradas de grandes players não garantem boa citação;
  • CAG pode responder com precisão, mas sem fundamentação cuidadosa em páginas perde na pontuação final;
  • BM25 clássico sozinho não consegue mais lidar com perguntas legais complexas;
  • RAG híbrido com reranking apropriado se mostrou mais forte que as soluções integradas do OpenAI e Grok.

Seu próprio sistema MORAG também não impressionou no início: um pequeno Qwen local teve dificuldade em manter a precisão e especialmente falhou em perguntas multi-documentos. O avanço veio após mudar para Grok via OpenRouter e seleção de chunk mais rigorosa. No aquecimento, o time subiu de um Total de 0.362 nas primeiras rodadas para 0.780 na tentativa final, e Grounding cresceu de aproximadamente 0.45 para 0.90. Esse crescimento, não a substituição de um modelo moderno por outro, se tornou o fator principal no progresso.

O Que Realmente Ajudou

Os ganhos mais significativos vieram não de "melhorias abstratas de qualidade", mas de várias soluções de engenharia muito concretas. O time dividiu modos reasoning e non-reasoning por tipos de perguntas, adicionou um loop agentivo com busca repetida se os dados fossem insuficientes, e separadamente construiu um gold set para verificar respostas em 900 perguntas. Isso permitiu a eles evitar atirar às cegas nas finais e encontrar rapidamente erros sistêmicos como má interpretação de linguagem sobre um recurso submetido mas rejeitado.

  • modelos de reasoning foram mantidos para boolean, name e names, onde non-reasoning perdia 8-16% de precisão;
  • para date, number e free_text, eles usaram um modo non-reasoning mais rápido sem perda notável;
  • eles adicionaram as primeiras 1-3 páginas de documentos mencionados na pergunta à busca, porque detalhes-chave do caso frequentemente estão lá;
  • eles reconstruíram summaries e vetores esparsos para o domínio legal;
  • eles restringiram chunks ao limite do embedder FRIDA, que corta tudo mais longo que 512 tokens.

Na fase final, MORAG ficou aquém do golden submission preparado no Total geral—0.603 versus 0.631, mas superou em três de cinco métricas: na precisão de respostas determinísticas, na qualidade de respostas de forma livre e na velocidade. A perda veio novamente de Grounding. Esse é um detalhe importante: o sistema RAG em si já estava respondendo melhor que a baseline "manual", mas a fundamentação técnica da resposta na página correta ainda ficava atrás.

O Que Isso Significa

Esta história ilustra bem que CAG não matou RAG, Mac Studio é adequado para partes de um pipeline local, e as bases prontas do OpenAI e Grok não substituem a afinação para um corpus específico. Se os dados são complexos, a vitória vai não para a marca mais ruidosa, mas para o time que sabe como medir erros, controlar chunking, e levar Grounding para um estado funcional.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…