Как BERTopic с локальной LLM помогает Ростелеком анализировать массивы текстов

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-16. Время чтения: 4 мин.

Разработчик NLP из Ростелеком представил пайплайн BERTopic для полной автоматизации анализа больших массивов текстов — отзывов, обращений в поддержку, комментар

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-05-16· 3 мин

Как BERTopic с локальной LLM помогает Ростелеком анализировать массивы текстов — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

Автоматизация анализа текстов — одна из самых трудоёмких и недооцененных задач в NLP. Когда компания получает десятки тысяч отзывов, обращений в поддержку или комментариев в день, ручная категоризация становится не просто невозможной, но и бессмысленной с точки зрения ROI. Антон, инженер NLP из Ростелеком, предложил решение: пайплайн на базе BERTopic с интегрированной локальной LLM для получения интерпретируемых названий тем.

Зачем нужна автоматизация анализа текстов

Большие массивы текстов — это золотая жила неструктурированных данных для любой компании. В отзывах скрыты жалобы на конкретные баги и недостатки, в обращениях в поддержку видны системные проблемы и слабые места, в комментариях в соцсетях сидят идеи для новых фич и продуктов. Но разбирать всё это руками может даже небольшая команда аналитиков не за день и не за неделю. Классический подход — вручную прочитать каждый текст, понять его суть, распределить по категориям. При объёмах в 10 000 и более текстов это становится экономически нерентабельным, мучительным для специалиста и долгим. Плюс добавляется субъективность: один аналитик отнесёт жалобу в категорию "проблемы с сетью", второй — в "качество услуги", третий — в "прочее". Консистентность теряется, выводы становятся ненадёжными.

Как BERTopic решает проблему кластеризации BERTopic — это фреймворк,

который сочетает несколько техник машинного обучения для автоматического поиска тем в текстах. Процесс работает так: * Эмбеддинги (BERT): каждый текст преобразуется в вектор чисел (эмбеддинг), где семантически похожие тексты лежат рядом в многомерном пространстве. Для русского текста можно использовать ruBERT или другие модели.

Кластеризация (HDBSCAN): быстрый алгоритм находит естественные скопления текстов в этом пространстве, не требуя заранее знать количество тем. Интерпретация: BERTopic генерирует название для каждого кластера на основе TF-IDF — самых значимых слов в группе. Результат?

Из хаоса 50 000 текстов получается, например, 15 чётких и естественных тем: "проблемы с интернетом", "вопросы по биллингу", "баги в мобильном приложении", "запросы на льготы" и так далее. Однако есть подвох. Стандартная интерпретация BERTopic часто выдаёт странные названия типа "абонент_услуга_номер" или "бага_баг_ошибка", которые сложно объяснить бизнесу.

Здесь в дело вступает языковая модель.

Встройка локальной LLM для интерпретации

Вместо механического подбора слов из кластера, локальная языковая модель (например, Mistral 7B или Llama 2) читает топ-слова и топ-документы кластера, а затем генерирует полноценное описание на русском языке: "Клиенты жалуются на медленную скорость интернета в сельской местности, особенно в выходные дни".

«Встройка локальной LLM защищает конфиденциальность данных: все текущие данные остаются в компании, без отправки в OpenAI, Claude API или другие облачные сервисы.

Это критично для компаний, работающих с чувствительной информацией», — подчеркивает Антон. Кроме того, локальная модель работает быстрее, чем API-запросы, и полностью независима от квот, лимитов и стоимости за обработанные токены. Пайплайн работает без интернета, что снижает latency и повышает надёжность системы.

Практический результат и масштабирование

Пайплайн из Ростелеком позволяет за несколько часов выполнить то, что раньше занимало несколько недель ручного труда: 1. Загрузить набор текстов в BERTopic (могут быть тысячи или десятки тысяч записей) 2. Получить готовые кластеры с LLM-сгенерированными описаниями тем на понятном бизнесу языке 3. Экспортировать результаты в Excel, CSV или базу данных для дальнейшей работы аналитиков и product-менеджеров Плюс возможность переиспользования: новая партия поступила в поддержку? Пайплайн переучивается за минуты, и снова выдаёт структурированный результат.

Что это значит для индустрии NLP-инструменты активно выходят из

лаборатории и научных статей в реальный production. Когда один инженер может за день собрать полнофункциональный пайплайн, который раньше требовал двух-трёх недель ручного труда и экспертизы целой команды — это значит, что NLP становится практическим инструментом, а не научным экспериментом, доступным только крупным IT-компаниям.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com