VK показала DataCopilot — мультиагентную систему для корпоративных данных и документации
VK показала DataCopilot — внутреннего AI-помощника для работы с корпоративным хранилищем данных и документацией. Система выросла из аудита реальных запросов к D

VK рассказала о DataCopilot — внутреннем AI-помощнике для работы с корпоративным хранилищем данных и профильной документацией. Проект вырос не из моды на LLM, а из разбора реальных запросов аналитиков, менеджеров и инженеров, которые каждый день тратят время на повторяющиеся вопросы.
С чего начали Команда не стала начинать с выбора модели или очередной RAG-схемы.
Сначала в VK посмотрели на рутину вокруг Data Office и платформы данных: какие вопросы прилетают в саппорт, что чаще всего спрашивают в чатах, где сотрудники теряют время в поиске нужной витрины, описания поля или нужного процесса согласования. Такой аудит дал понятный список задач, которые можно автоматизировать без перестройки всего DWH и без попытки сделать «универсальный интеллект» на все случаи сразу. Из этого списка собрали образ будущего помощника.
Он должен понимать каталог витрин, объяснять, что и где хранится, подсказывать по корпоративной документации, помогать с доступами и генерировать рабочие заготовки для ETL. То есть речь не про чат-бота «ради чата», а про интерфейс к данным и внутренним знаниям компании. Для аналитиков и менеджеров это экономия времени, для инженеров — снижение потока однотипных обращений.
Почему не RAG
Для части запросов классический RAG действительно подходит: пользователь задаёт вопрос, система находит релевантные документы и на их основе собирает ответ. Но в корпоративной среде этого быстро становится мало. Один вопрос может требовать перехода между каталогом витрин, описанием конкретных таблиц, инструкцией по доступам и шаблоном скрипта.
Если всё это отдавать одной цепочке без специализации, качество ответа начинает плавать, а лишний контекст только мешает. Поэтому VK делает ставку на мультиагентную архитектуру — по сути, на рой специализированных помощников. Один агент может отвечать за поиск и интерпретацию документации, другой — за навигацию по хранилищу, третий — за генерацию кода, четвёртый — за сценарии оформления доступов.
Над ними нужен координатор, который понимает тип запроса, выбирает маршрут и собирает итоговый ответ. Такой подход лучше совпадает с реальной структурой корпоративных данных, где источники, правила и действия сильно отличаются друг от друга.
Что умеет система
Судя по описанию проекта, DataCopilot строится как практический рабочий инструмент, а не как демонстрация возможностей модели. Он закрывает те точки, где сотруднику обычно приходится переключаться между чатами поддержки, каталогом данных, внутренними инструкциями и собственными черновиками. На выходе пользователь получает либо короткий ответ с нужным контекстом, либо полуготовый артефакт, который можно быстро адаптировать под задачу.
- Помогает найти нужную витрину и понять, какие данные в ней лежат Объясняет, где именно хранится информация и как она связана с другими сущностями Подсказывает, как оформить заявку на доступы без похода в поддержку Отвечает на узкие вопросы по внутренней документации и правилам работы с DWH Пишет скрипты, которые можно забрать в ETL-процессы и доработать под свой пайплайн Важный момент здесь в том, что система работает на стыке знаний и действий. Она не только пересказывает документы, но и помогает сделать следующий шаг: подготовить запрос, составить основу скрипта, сократить путь до нужной таблицы. Именно это обычно отличает полезный корпоративный AI от очередного «умного поиска». При этом ответственность за финальное применение результата всё равно остаётся у человека: особенно когда речь идёт о доступах, миграциях данных и коде для продуктивных ETL-процессов.
Что это значит
История DataCopilot показывает, куда на самом деле движется корпоративный AI: не к одному всезнающему чат-боту, а к набору узких агентов вокруг конкретного рабочего контура. Для команд, у которых есть DWH, каталог витрин, регламенты и поток повторяющихся вопросов, такой подход может дать гораздо больше пользы, чем абстрактный RAG поверх всех документов сразу.