Habr AI→ original

MWS AI e SberAI propõem DRAGOn — um benchmark dinâmico para avaliação de sistemas RAG

MWS AI, SberAI e parceiros acadêmicos apresentaram DRAGOn — um benchmark para sistemas RAG com corpus regularmente atualizado. Em vez de um conjunto estático…

Processado por IA de Habr AI; editado por Hamidun News
MWS AI e SberAI propõem DRAGOn — um benchmark dinâmico para avaliação de sistemas RAG
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Pesquisadores da MWS AI, SberAI e várias universidades apresentaram DRAGOn — um benchmark dinâmico para avaliar sistemas RAG que operam em um corpus regularmente atualizado. O trabalho foi publicado no arXiv em julho de 2025 e em março de 2026 foi incluído nos materiais do EACL 2026 como uma forma prática de testar RAG em dados genuinamente novos, em vez de em um conjunto de perguntas fixado há muito tempo.

Por que isso é difícil

A avaliação de RAG quase sempre esbarra no mesmo problema: os testes ficam obsoletos mais rápido que os próprios sistemas. Se um benchmark é construído sobre um corpus fixo, um modelo pode mostrar altos resultados não porque busca e vincula documentos bem, mas porque já viu parte dos fatos durante o treinamento. A isso se adiciona outra complicação: na qualidade final, é difícil separar a contribuição do recuperador da contribuição do gerador. E a preparação manual de pares "pergunta-resposta" para verificação contínua é muito cara, lenta e mal escalável para equipes que querem comparar regularmente novas versões de seus pipelines.

Como o DRAGOn é estruturado

Os autores propõem construir o benchmark como um pipeline. Parsers regularmente buscam materiais de fontes de notícias, depois um módulo separado extrai fatos atômicos dos textos na forma de triplas "sujeito-relação-objeto". Depois disso, o sistema verifica entidades contra Wikidata e descarta fatos já conhecidos, para que a amostra contenha precisamente novos conhecimentos. A partir do grafo resultante, perguntas de complexidade variada são construídas automaticamente, e o próprio benchmark pode ser lançado regularmente sem remontagem manual e com controle de versão claro.

  • Simple — uma pergunta sobre um único fato
  • Set — uma enumeração de vários objetos com uma relação comum
  • Multi-hop — uma pergunta através de uma entidade intermediária
  • Conditional — uma resposta baseada em duas condições simultaneamente

Além disso, os autores adicionaram um leaderboard público e divisão em partes públicas e privadas de avaliação. A parte pública é necessária para comparação aberta de resultados, e a parte privada é para verificação precisa contra o padrão-ouro e proteção contra ajuste a respostas conhecidas. Tal formato torna a comparação de diferentes configurações de RAG mais justa: uma equipe pode testar um novo recuperador, outra um novo gerador, e ambas obtêm resultados comparáveis em um corpus fresco, em vez de em um conjunto que o modelo já poderia ter aprendido.

Como funciona a verificação

Para evitar que pares QA gerados automaticamente se transformem em ruído, DRAGOn os executa por vários filtros. Primeiro, a correção linguística básica é verificada usando RuRoBERTa-large, depois as perguntas passam por verificação NER via Natasha. Depois disso, exemplos muito fáceis são removidos do conjunto: se modelos pequenos como Qwen 2.

5 7B ou LLaMa 3 8B respondem sem depender do contexto, tal pergunta não é adequada para avaliação justa de RAG e é excluída da versão final. O controle final de qualidade é feito por POLLUX 7B em modo LLM-as-a-Judge. O modelo avalia gramaticalidade, naturalidade, correção e dependência da pergunta do contexto, depois essas pontuações são verificadas contra anotação humana.

Em um experimento com 532 exemplos, o juiz automático mostrou alta precisão, embora tenha se mostrado bastante rigoroso. Após filtragem, os autores mantêm 150 perguntas de qualidade para cada categoria, depois testam sistemas separadamente para recuperação e geração. Nos testes, combinações com Qwen 3 Embedding 8B e E5 Mistral 7B Instruct pareceram mais fortes: a conclusão é simples — se o recuperador encontra o contexto correto, o gerador acha significativamente mais fácil dar uma resposta precisa.

O que isso significa

DRAGOn é uma tentativa de transformar a avaliação de RAG de uma demonstração única em um processo continuamente atualizado. Para equipes que constroem busca sobre documentos, notícias ou bases de conhecimento internas, tal abordagem é útil porque reduz o risco de confiança falsa: um sistema pode dar respostas bonitas em dados familiares, mas falhar em fatos verdadeiramente novos. Um benchmark dinâmico ajuda a detectar essa diferença mais cedo e dá uma imagem mais honesta de quão pronto o RAG está para trabalhar em um ambiente ao vivo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…