Habr AI→ original

Claude Code elevou Legal RAG para 0.791, mas a final ARLC 2026 esbarrou em problemas de escala

No desafio de IA jurídica ARLC 2026, o autor elevou o score do pipeline RAG de 0.034 para 0.791 em warmup em cinco dias ao longo de 17 iterações…

Processado por IA de Habr AI; editado por Hamidun News
Claude Code elevou Legal RAG para 0.791, mas a final ARLC 2026 esbarrou em problemas de escala
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Claude Code ajudou a elevar o Legal RAG para 0.791, mas a final do ARLC 2026 esbarrou na escala

O caso ARLC 2026 mostra bem como o RAG pode ser frágil em tarefas reais. Em cinco dias, o autor, trabalhando com Claude Code, elevou o resultado de um pipeline legal de 0.034 para 0.791 no warmup, e depois bateu em uma parede dura de escalabilidade na final.

De um bug a um salto

O desafio exigia não apenas responder perguntas sobre decisões judiciais e leis, mas apontar com precisão as páginas-fonte. Por isso, o grounding se tornou um multiplicador de toda a pontuação final: mesmo com respostas fortes, citações fracas praticamente zeravam o score. Foi exatamente o que aconteceu no início: a primeira versão mostrou 0.

034, embora a precisão na parte de respostas já fosse alta. O problema não estava no modelo nem no retrieval, mas no formato de saída. O autor gastou três tentativas antes de notar um erro simples: o campo doc_id estava enviando o nome do arquivo com .

pdf, enquanto o sistema esperava um identificador sem extensão. Um único corretivo elevou o grounding de 0.05 para 0.

55, e o resultado geral de 0.034 para 0.438.

O pipeline então atingiu 0.791 no warmup em 17 iterações. A matemática F-beta com β=2.

5 também ajudou separadamente: mostrou que páginas extras prejudicam mais do que parece, e cada link extra pode custar 10–22% de qualidade de grounding.

Arquitetura e técnicas

O melhor resultado veio de um pipeline que indexava não chunks, mas páginas inteiras de PDF. Esta é uma escolha importante para RAG legal: se a métrica verifica o desembarque em uma página específica, chunking complica a atribuição reversa e gera ruído. Para busca, foi usada uma estratégia híbrida—BM25 mais embeddings com fusão RRF—e OCR foi adicionado para digitalizações. Além disso, o autor limitou o número de páginas na saída e roteou separadamente questões de comparação, onde dois documentos precisam ser comparados.

  • Retrieval no nível de página em vez de chunks
  • BM25 + embeddings + Reciprocal Rank Fusion
  • Fallback de OCR para páginas vazias ou digitalizadas
  • Limite do número de páginas nas respostas por tipo de pergunta
  • Ramificações determinísticas rápidas para casos simples
"Primeiro valide o formato de saída.

Depois melhore a qualidade."

Uma linha separada do caso é o papel do Claude Code. Com sua ajuda, o autor montou cerca de 3000 linhas de código em sete módulos em cinco dias e conseguiu fazer 17 versões em vez dos típicos 3–5 manualmente. O agente acelerou correções, refatoração, execução de envios e verificação de diffs antes do envio. Mas as decisões estratégicas continuaram com o humano: quais métricas corrigir primeiro, como interpretar regressões e quando não mexer em um prompt já ajustado.

Onde tudo desabou

No warmup, o corpus consistia em 30 documentos e 100 perguntas, mas na final eram 303 documentos, 4244 páginas e 900 perguntas. Foi aí que ficou claro que um pipeline que funciona bem em um conjunto pequeno não precisa necessariamente escalar para um maior. Primeiro, um bug de cache apareceu: o sistema indexava incorretamente 30 documentos de warmup em vez de 303 finais, o que fez as respostas nulas subirem para 37.

Após limpar o cache, o problema desapareceu, mas o colapso principal permaneceu: a pontuação final caiu 42%, para 0.457. As causas raiz se mostraram arquiteturais.

Um documento enorme, DIFC Courts Rules, começou a poluir a saída para muitas consultas legais; consultation papers com os mesmos números, mas anos diferentes, quebravam a desambiguação; e uma regex para law number estava substituindo respostas sobre multas por números de leis. Uma tentativa de aplicar rapidamente um pacote de oito correções parecia razoável, mas em conjunto piorou o equilíbrio de métricas: parte da precisão determinística cresceu, mas o grounding e a pontuação geral declinaram ainda mais. Esta análise é valiosa porque não vende magia de assistente de IA.

Claude Code deu velocidade, mas não removeu o trabalho de engenharia principal: validar formato, calcular métricas, testar uma mudança de cada vez e verificar o sistema em uma escala próxima à produção. A conclusão principal do autor é dura: se o conjunto de eval é muitas vezes menor que o corpus de produção, você está testando não retrieval, mas sorte.

O que isso significa

Para equipes que constroem produtos RAG, este é um bom choque de realidade. A vitória não vai para o stack mais complexo, mas para a disciplina: formato de saída preciso, métricas claras, ruído mínimo em citações e validação em escala real. Assistentes de codificação de IA já fornecem uma aceleração séria, mas por enquanto não substituem o pensamento de engenharia e a responsabilidade pelas decisões arquiteturais.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…