Как BERTopic с локальной LLM помогает Ростелеком анализировать массивы текстов
Разработчик NLP из Ростелеком представил пайплайн BERTopic для полной автоматизации анализа больших массивов текстов — отзывов, обращений в поддержку, комментар

Автоматизация анализа текстов — одна из самых трудоёмких и недооцененных задач в NLP. Когда компания получает десятки тысяч отзывов, обращений в поддержку или комментариев в день, ручная категоризация становится не просто невозможной, но и бессмысленной с точки зрения ROI. Антон, инженер NLP из Ростелеком, предложил решение: пайплайн на базе BERTopic с интегрированной локальной LLM для получения интерпретируемых названий тем.
Зачем нужна автоматизация анализа текстов
Большие массивы текстов — это золотая жила неструктурированных данных для любой компании. В отзывах скрыты жалобы на конкретные баги и недостатки, в обращениях в поддержку видны системные проблемы и слабые места, в комментариях в соцсетях сидят идеи для новых фич и продуктов. Но разбирать всё это руками может даже небольшая команда аналитиков не за день и не за неделю. Классический подход — вручную прочитать каждый текст, понять его суть, распределить по категориям. При объёмах в 10 000 и более текстов это становится экономически нерентабельным, мучительным для специалиста и долгим. Плюс добавляется субъективность: один аналитик отнесёт жалобу в категорию "проблемы с сетью", второй — в "качество услуги", третий — в "прочее". Консистентность теряется, выводы становятся ненадёжными.
Как BERTopic решает проблему кластеризации BERTopic — это фреймворк,
который сочетает несколько техник машинного обучения для автоматического поиска тем в текстах. Процесс работает так: * Эмбеддинги (BERT): каждый текст преобразуется в вектор чисел (эмбеддинг), где семантически похожие тексты лежат рядом в многомерном пространстве. Для русского текста можно использовать ruBERT или другие модели.
Кластеризация (HDBSCAN): быстрый алгоритм находит естественные скопления текстов в этом пространстве, не требуя заранее знать количество тем. Интерпретация: BERTopic генерирует название для каждого кластера на основе TF-IDF — самых значимых слов в группе. Результат?
Из хаоса 50 000 текстов получается, например, 15 чётких и естественных тем: "проблемы с интернетом", "вопросы по биллингу", "баги в мобильном приложении", "запросы на льготы" и так далее. Однако есть подвох. Стандартная интерпретация BERTopic часто выдаёт странные названия типа "абонент_услуга_номер" или "бага_баг_ошибка", которые сложно объяснить бизнесу.
Здесь в дело вступает языковая модель.
Встройка локальной LLM для интерпретации
Вместо механического подбора слов из кластера, локальная языковая модель (например, Mistral 7B или Llama 2) читает топ-слова и топ-документы кластера, а затем генерирует полноценное описание на русском языке: "Клиенты жалуются на медленную скорость интернета в сельской местности, особенно в выходные дни".
«Встройка локальной LLM защищает конфиденциальность данных: все текущие данные остаются в компании, без отправки в OpenAI, Claude API или другие облачные сервисы.
Это критично для компаний, работающих с чувствительной информацией», — подчеркивает Антон. Кроме того, локальная модель работает быстрее, чем API-запросы, и полностью независима от квот, лимитов и стоимости за обработанные токены. Пайплайн работает без интернета, что снижает latency и повышает надёжность системы.
Практический результат и масштабирование
Пайплайн из Ростелеком позволяет за несколько часов выполнить то, что раньше занимало несколько недель ручного труда: 1. Загрузить набор текстов в BERTopic (могут быть тысячи или десятки тысяч записей) 2. Получить готовые кластеры с LLM-сгенерированными описаниями тем на понятном бизнесу языке 3. Экспортировать результаты в Excel, CSV или базу данных для дальнейшей работы аналитиков и product-менеджеров Плюс возможность переиспользования: новая партия поступила в поддержку? Пайплайн переучивается за минуты, и снова выдаёт структурированный результат.
Что это значит для индустрии NLP-инструменты активно выходят из
лаборатории и научных статей в реальный production. Когда один инженер может за день собрать полнофункциональный пайплайн, который раньше требовал двух-трёх недель ручного труда и экспертизы целой команды — это значит, что NLP становится практическим инструментом, а не научным экспериментом, доступным только крупным IT-компаниям.