RAGAS и метрики RAG: как перестать гадать и начать измерять качество
RAG-системы часто добавляют галлюцинации или теряют релевантный контекст. RAGAS предлагает четыре автоматические метрики: Faithfulness (верность контексту), Ans

RAG-системы завоёвывают популярность, но часто выдают неправильные ответы, добавляют выдуманные факты или игнорируют релевантный контекст. В третьей части цикла про инженерию качества разберёмся, как измерять RAG вместо гадания на кофейной гуще и как для этого использовать RAGAS — фреймворк, который заменяет ручную проверку автоматизацией.
Почему метрики RAG сложнее, чем для LLM
Обычный LLM можно оценить на стандартных бенчмарках: MMLU, HumanEval, TruthfulQA. RAG добавляет слой извлечения контекста — появляются новые точки отказа. Вопрос "Какой была зарплата Гейтса в 1997?" может сломаться несколькими способами: Поисковик не нашёл релевантный документ — поиск вернул шум Модель нашла документ, но проигнорировала нужный факт — невнимание Модель нашла факт, но добавила галлюцинацию поверх — смешивание источника и выдумки Контекст был релевантен, но ответ не соответствует вопросу — логическая ошибка Чтобы контролировать эти сценарии, нужны специальные метрики. Ручная проверка каждого ответа — дорого и не масштабируется к тысячам запросов.
RAGAS: четыре метрики на все случаи RAGAS — фреймворк от Basis AI для автоматической оценки RAG.
Вот его основной набор метрик: Faithfulness — верна ли генерируемый ответ контексту? Модель проверяет, не добавил ли LLM факты, которых нет в источниках. Оценка от 0 до 1. Answer Relevance — соответствует ли ответ вопросу? RAGAS генерирует обратный вопрос из ответа и сравнивает по семантике. Context Precision — релевантны ли извлечённые фрагменты? Проверяет, не перепутал ли поисковик направление и не вернул ли шум. Context Recall — полнота контекста? Была ли в документах вся информация для полного ответа на вопрос. Каждая метрика указывает на узкое место: плохой поиск, плохая генерация или оба вместе.
Как RAGAS оценивает изнутри Здесь нет волшебства — RAGAS использует сам LLM как судью.
Для Faithfulness берёт сгенерированный ответ и контекст, просит модель выделить утверждения, которые могут быть проверены (factual claims), потом поочередно проверяет каждое против контекста. Если утверждение поддерживается фактом в источнике — счёт повышается. Для Answer Relevance генерирует гипотетический вопрос из ответа (reverse), потом считает косинусное сходство (семантическое расстояние) до оригинального вопроса. Чем выше совпадение, тем релевантнее ответ.
"Если ваш LLM знает, как лгать, он знает и как обнаружить ложь", — логика фреймворка.
Весь процесс требует вызовов LLM (для каждого ответа — минимум 2-3 вызова), поэтому RAGAS считается дорогим по токенам. Но альтернатива — наём людей для разметки, что ещё дороже и медленнее.
Что это значит RAGAS делает инженерию RAG воспроизводимой и отслеживаемой.
Вместо качественного "кажется, работает" вы получаете количественные метрики, которые отслеживают, как каждое обновление (новые документы, новая модель, новый промпт) влияет на качество. Для небольших pet-проектов RAGAS может быть overkill. Для enterprise-решений, где ошибка стоит денег и доверия клиентов, это таблица Менделеева, которой инженерам RAG давно не хватало.