RAG (генерация с дополненной выборкой)
RAG — это техника, при которой языковая модель перед ответом достаёт релевантные документы из внешней базы знаний и опирается на них. Это снижает галлюцинации и позволяет отвечать по свежим данным без переобучения модели.
RAG состоит из двух компонентов: ретривера и генератора. Когда приходит вопрос, ретривер превращает его в эмбеддинг, ищет в векторной базе семантически близкие фрагменты документов и передаёт лучшие совпадения языковой модели как контекст. Модель пишет ответ, опираясь на эти фрагменты, а не только на то, что запомнила при обучении.
Подход закрывает сразу три хронические проблемы LLM. Свежесть знаний: вы обновляете базу документов, а не модель. Галлюцинации: модель цитирует найденный текст, а не выдумывает факты. Приватные данные: корпоративные вики, договоры и тикеты поддержки не попадают в обучение модели — они лежат в индексе и достаются в момент запроса.
RAG — не серебряная пуля: качество ответа упирается в качество поиска. Если ретривер вернул нерелевантные фрагменты, модель уверенно перескажет не то. Поэтому в продакшене вкладываются в стратегию нарезки документов, гибридный поиск (ключевые слова + вектора), реранкинг и отдельную оценку этапа поиска.