Habr AI→ оригинал

كشف PSB عن مقاربته لـ RAG في التكنولوجيا المالية: البنية المعمارية والمقاييس ودورة الاختبار

شارك PSB ممارسته في تقييم RAG في التكنولوجيا المالية، وأوضح أن مكافحة الهلوسات لا تبدأ من prompt، بل من البنية المعمارية والاختبارات. وينصب التركيز على chunking

◐ Слушать статью

ПСБ опубликовал практический разбор того, как оценивает и тестирует RAG-подход в задачах, где цена ошибки особенно высока. Вместо веры в «умную» модель банк делает ставку на связку из собственной базы знаний, векторного поиска, метрик качества и регулярной ручной проверки.

Как устроен RAG В ПСБ напоминают, что главная проблема LLM — не только

слабые ответы, но и уверенные ошибки. Именно для этого и нужен RAG: модель сначала ищет сведения в доверенном массиве данных, а уже потом формирует ответ. Базой знаний может быть что угодно — документы, сайт, внутреннее хранилище или структурированная база данных.

Но чтобы поиск работал быстро, материалы сначала нужно разбить на фрагменты и превратить в векторы через эмбеддинг-модель. Дальше многое решает качество разбиения на чанки. Для HTML и обычных текстов можно делить материал по абзацам, для формализованных документов — по пунктуации, а для сложных массивов данных — по числу токенов.

В статье отдельно подчеркивается, что токен — это не символ и не слово, а единица разбиения, зависящая от токенизатора конкретной модели. После векторизации система поднимает из индекса релевантные фрагменты, добавляет их в контекст и только затем просит модель сгенерировать ответ.

Чем мерить качество ПСБ предлагает смотреть на RAG не одной метрикой,

а сразу по трем направлениям: качество поиска, точность ответа и качество изложения. Если система не нашла нужный документ, никакая сильная LLM уже не спасет результат. Если документ найден, следующая проблема — поняла ли модель его корректно и не добавила ли лишнего. И только после этого есть смысл оценивать, насколько ответ вообще читаем, полезен и соответствует вопросу пользователя.

  • Hit Rate — находит ли система релевантные документы в принципе MRR — насколько высоко в выдаче оказывается лучший документ Factual Accuracy — сколько фактически верных утверждений в ответе * Полезность и ясность — решает ли ответ задачу без лишних отклонений Для проверки точности в ПСБ используют и автоматический расчет, и сравнение с «золотым стандартом», то есть с ответами, подготовленными человеком. Еще один слой контроля — LLM-арбитр, когда отдельная модель оценивает результат основной. Но в финтехе автоматизация упирается в ограничения: персональные данные нужно вычищать из базы знаний, а распознавание таких данных само по себе не дает стопроцентной гарантии. Поэтому ручная верификация остается обязательной частью процесса.
«RAG — технология, а не магия».

Как тестируют в ПСБ В тестировании ПСБ переносит на RAG классическую

пирамиду качества, но с поправкой на архитектуру таких систем. На нижнем уровне проверяют не отдельные куски кода, а компоненты: саму LLM, векторную базу, настройки извлечения и разбиение документов. На следующем уровне идут API-тесты — здесь можно смотреть на нагрузку, ответы, объем возвращаемых чанков и число токенов.

Выше — E2E-сценарии, где уже важно, как система ведет себя в реальных пользовательских запросах. И, отдельно, ручное тестирование, без которого в чувствительных доменах пока не обойтись. Сам цикл оценки тоже описан как непрерывный процесс.

Сначала собирается тестовый датасет: с помощью LLM можно сгенерировать от сотни до тысячи вопросов. Затем RAG прогоняют по этому набору, сохраняют ответы и найденные документы, считают метрики, ищут узкие места и дорабатывают систему. Для автоматической оценки в ПСБ сейчас используют RAGAS, а в будущем рассматривают и собственные инструменты — в том числе дашборды, CI/CD-интеграции, A/B-сравнение версий и тепловые карты проблемных зон.

Такой подход нужен не ради академической чистоты, а чтобы отслеживать деградации и улучшения во времени.

Что это значит

Для компаний, которые не готовы тратить большие бюджеты на дообучение моделей, RAG остается самым практичным способом быстро повысить точность корпоративных AI-сервисов. Но статья ПСБ хорошо показывает важную вещь: сам по себе retrieval ничего не гарантирует. Нужны дисциплина в подготовке данных, понятные метрики, регулярные тесты и человек в контуре — особенно там, где ошибка в ответе может повлиять на деньги, комплаенс или безопасность клиента.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…