ПСБ раскрыл подход к RAG в финтехе: архитектура, метрики и цикл тестирования

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2 мая 2026 г.. Время чтения: 3 мин.

ПСБ поделился практикой оценки RAG в финтехе и показал, что борьба с галлюцинациями начинается не с промпта, а с архитектуры и тестов. В фокусе — чанкинг…

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2 мая 2026 г.· 3 мин

AI-обработка оригинала Habr AI; редакция Hamidun News

ПСБ раскрыл подход к RAG в финтехе: архитектура, метрики и цикл тестирования — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

ПСБ опубликовал практический разбор того, как оценивает и тестирует RAG-подход в задачах, где цена ошибки особенно высока. Вместо веры в «умную» модель банк делает ставку на связку из собственной базы знаний, векторного поиска, метрик качества и регулярной ручной проверки.

Как устроен RAG В ПСБ напоминают, что главная проблема LLM — не только

слабые ответы, но и уверенные ошибки. Именно для этого и нужен RAG: модель сначала ищет сведения в доверенном массиве данных, а уже потом формирует ответ. Базой знаний может быть что угодно — документы, сайт, внутреннее хранилище или структурированная база данных.

Но чтобы поиск работал быстро, материалы сначала нужно разбить на фрагменты и превратить в векторы через эмбеддинг-модель. Дальше многое решает качество разбиения на чанки. Для HTML и обычных текстов можно делить материал по абзацам, для формализованных документов — по пунктуации, а для сложных массивов данных — по числу токенов.

В статье отдельно подчеркивается, что токен — это не символ и не слово, а единица разбиения, зависящая от токенизатора конкретной модели. После векторизации система поднимает из индекса релевантные фрагменты, добавляет их в контекст и только затем просит модель сгенерировать ответ.

Чем мерить качество ПСБ предлагает смотреть на RAG не одной метрикой,

а сразу по трем направлениям: качество поиска, точность ответа и качество изложения. Если система не нашла нужный документ, никакая сильная LLM уже не спасет результат. Если документ найден, следующая проблема — поняла ли модель его корректно и не добавила ли лишнего. И только после этого есть смысл оценивать, насколько ответ вообще читаем, полезен и соответствует вопросу пользователя.

Hit Rate — находит ли система релевантные документы в принципе MRR — насколько высоко в выдаче оказывается лучший документ Factual Accuracy — сколько фактически верных утверждений в ответе * Полезность и ясность — решает ли ответ задачу без лишних отклонений Для проверки точности в ПСБ используют и автоматический расчет, и сравнение с «золотым стандартом», то есть с ответами, подготовленными человеком. Еще один слой контроля — LLM-арбитр, когда отдельная модель оценивает результат основной. Но в финтехе автоматизация упирается в ограничения: персональные данные нужно вычищать из базы знаний, а распознавание таких данных само по себе не дает стопроцентной гарантии. Поэтому ручная верификация остается обязательной частью процесса.

«RAG — технология, а не магия».

Как тестируют в ПСБ В тестировании ПСБ переносит на RAG классическую

пирамиду качества, но с поправкой на архитектуру таких систем. На нижнем уровне проверяют не отдельные куски кода, а компоненты: саму LLM, векторную базу, настройки извлечения и разбиение документов. На следующем уровне идут API-тесты — здесь можно смотреть на нагрузку, ответы, объем возвращаемых чанков и число токенов.

Выше — E2E-сценарии, где уже важно, как система ведет себя в реальных пользовательских запросах. И, отдельно, ручное тестирование, без которого в чувствительных доменах пока не обойтись. Сам цикл оценки тоже описан как непрерывный процесс.

Сначала собирается тестовый датасет: с помощью LLM можно сгенерировать от сотни до тысячи вопросов. Затем RAG прогоняют по этому набору, сохраняют ответы и найденные документы, считают метрики, ищут узкие места и дорабатывают систему. Для автоматической оценки в ПСБ сейчас используют RAGAS, а в будущем рассматривают и собственные инструменты — в том числе дашборды, CI/CD-интеграции, A/B-сравнение версий и тепловые карты проблемных зон.

Такой подход нужен не ради академической чистоты, а чтобы отслеживать деградации и улучшения во времени.

Что это значит

Для компаний, которые не готовы тратить большие бюджеты на дообучение моделей, RAG остается самым практичным способом быстро повысить точность корпоративных AI-сервисов. Но статья ПСБ хорошо показывает важную вещь: сам по себе retrieval ничего не гарантирует. Нужны дисциплина в подготовке данных, понятные метрики, регулярные тесты и человек в контуре — особенно там, где ошибка в ответе может повлиять на деньги, комплаенс или безопасность клиента.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация