MWS AI и SberAI предложили DRAGOn — динамический бенчмарк для оценки RAG-систем

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-02. Время чтения: 3 мин.

MWS AI, SberAI и академические партнеры представили DRAGOn — бенчмарк для RAG-систем с регулярно обновляемым корпусом. Вместо статичного набора вопросов он авто

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-05-02· 2 мин

◐ Слушать статью

Исследователи из MWS AI, SberAI и нескольких университетов представили DRAGOn — динамический бенчмарк для оценки RAG-систем, работающих на регулярно обновляемом корпусе. Работу опубликовали на arXiv в июле 2025 года, а в марте 2026-го она вошла в материалы EACL 2026 как практический способ тестировать RAG на реально новых данных, а не на давно зафиксированном наборе вопросов.

Почему это сложно

Оценка RAG почти всегда упирается в одну и ту же проблему: тесты стареют быстрее, чем сами системы. Если бенчмарк построен на фиксированном корпусе, модель может показывать высокий результат не потому, что хорошо ищет и связывает документы, а потому, что уже видела часть фактов на этапе обучения. К этому добавляется еще одна сложность: в итоговом качестве трудно отделить вклад ретривера от вклада генератора. А ручная подготовка пар «вопрос — ответ» для постоянного обновления проверки слишком дорогая, медленная и почти не масштабируется для команд, которые хотят регулярно сравнивать новые версии своих пайплайнов.

Как устроен DRAGOn Авторы предлагают собирать бенчмарк как конвейер.

Парсеры регулярно подтягивают материалы из новостных источников, затем отдельный модуль извлекает из текстов атомарные факты в виде триплетов «субъект — отношение — объект». После этого система сверяет сущности с Wikidata и отбрасывает уже известные факты, чтобы в выборке оставались именно новые знания. Из получившегося графа автоматически строятся вопросы разной сложности, а сам бенчмарк можно регулярно перевыпускать без ручной пересборки и с понятным контролем версий.

Simple — вопрос по одному факту Set — перечисление нескольких объектов с общей связью Multi-hop — вопрос через промежуточную сущность * Conditional — ответ по двум условиям сразу Поверх этого авторы добавили публичный лидерборд и разделение на публичную и приватную части оценки. Публичная часть нужна для открытого сравнения результатов, а приватная — для точной сверки с эталоном и защиты от подгонки под известные ответы. Такой формат делает сравнение разных RAG-конфигураций более честным: одна команда может тестировать новый ретривер, другая — новый генератор, и обе получают сопоставимый результат на свежем корпусе, а не на наборе, который модель уже могла выучить.

Как идет проверка

Чтобы автоматически сгенерированные QA-пары не превратились в шум, DRAGOn прогоняет их через несколько фильтров. Сначала проверяется базовая языковая корректность с помощью RuRoBERTa-large, затем вопросы проходят NER-проверку через Natasha. После этого из набора убирают слишком легкие примеры: если небольшие модели вроде Qwen 2.

5 7B или LLaMa 3 8B отвечают без опоры на контекст, такой вопрос не подходит для честной оценки RAG и исключается из финальной версии. Финальный контроль качества делает POLLUX 7B в режиме LLM-as-a-Judge. Модель оценивает грамотность, естественность, корректность и зависимость вопроса от контекста, а затем эти оценки сверяют с человеческой разметкой.

В эксперименте с 532 примерами автоматический судья показал высокую точность, хотя и оказался довольно строгим. После фильтрации авторы оставляют по 150 качественных вопросов на каждую категорию, а затем проверяют системы отдельно по поиску и по генерации. В тестах сильнее других выглядели связки с Qwen 3 Embedding 8B и E5 Mistral 7B Instruct: вывод простой — если ретривер находит правильный контекст, генератору заметно легче дать точный ответ.

Что это значит DRAGOn — это попытка превратить оценку RAG из разовой

демонстрации в постоянно обновляемый процесс. Для команд, которые строят поиск по документам, новостям или внутренним базам знаний, такой подход полезен тем, что снижает риск ложной уверенности: система может красиво отвечать на знакомых данных, но проваливаться на действительно новых фактах. Динамический бенчмарк помогает поймать эту разницу раньше и дает более честную картину того, насколько RAG готов к работе в живой среде.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com