Кластеризация текстов без разметки: LLM-эмбеддинги и HDBSCAN от Machine Learning Mastery
Языковые модели умеют не только отвечать в чате — они превращают текст в числовые векторы, по которым можно автоматически находить тематические группы…
AI-обработка оригинала Machine Learning Mastery; редакция Hamidun News
LLM-эмбеддинги вывели задачи с неструктурированным текстом далеко за пределы чат-интерфейсов. Machine Learning Mastery публикует практическое руководство: как объединить векторные представления языковых моделей с алгоритмом HDBSCAN — и автоматически находить тематические группы в текстовых массивах без ручной разметки или предварительных знаний о структуре данных.
Почему эмбеддинги меняют правила игры
Языковые модели умеют преобразовывать текст в векторы высокой размерности. Это числовые представления, в которых семантически близкие фрагменты оказываются геометрически рядом. «Клиент недоволен ценой» и «слишком дорого для меня» будут соседями в многомерном пространстве, а «проблема с доставкой» окажется в совершенно другой его части.
Именно это делает эмбеддинги идеальным входом для кластеризации: система учитывает смысл, а не совпадение ключевых слов. Словари синонимов и правила больше не нужны. Популярные модели для получения эмбеддингов — OpenAI `text-embedding-3-small`, Cohere Embed v3, а также open-source sentence-transformers, которые работают локально без расходов на API.
Типичный эмбеддинг имеет размерность 768–3072 — слишком много для прямой кластеризации. Перед HDBSCAN принято применять UMAP, который сжимает пространство до 5–50 измерений. Без этого шага алгоритм сталкивается с «проклятием размерности»: в высокоразмерном пространстве все точки выглядят примерно одинаково далёкими, и кластеры не формируются.
HDBSCAN против стандартных методов Большинство курсов по кластеризации начинается с K-means.
Проблема: алгоритм требует заранее задать число кластеров — что невозможно, если структура данных неизвестна. HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) решает задачу иначе: Не требует задавать количество кластеров заранее Автоматически помечает «шумовые» точки — тексты, не вписывающиеся ни в одну группу Корректно обрабатывает кластеры разного размера и плотности Масштабируется на десятки тысяч документов * Даёт иерархию кластеров с управляемой детализацией Полный пайплайн: эмбеддинги → снижение размерности через UMAP → HDBSCAN → метки кластеров. Весь код занимает несколько десятков строк Python с библиотеками `sentence-transformers`, `umap-learn` и `hdbscan`.
Для интерпретации найденных тем достаточно передать несколько примеров из каждой группы обратно в LLM и попросить придумать название — цикл замыкается от языковой модели к статистике и обратно.
Применение без обучающей выборки Главное преимущество связки — нулевая потребность в разметке.
Не нужно договариваться о категориях, нанимать асессоров или формировать training set. Один пайплайн обнаруживает структуру сам.
«Текущая эпоха генеративного ИИ сосредоточена на чат-интерфейсах, но возможности языковых моделей далеко этим не ограничиваются», — пишут авторы Machine Learning Mastery.
Типичные сценарии: кластеризация тысяч обращений в поддержку, автоматическая рубрикация новостных потоков, группировка отзывов на продукт, анализ открытых вопросов из опросов, обнаружение аномальных паттернов в логах. Результат появляется за минуты, без предварительной разметки. Подход особенно ценен при работе с быстроменяющимися данными: новые темы обнаруживаются автоматически — не нужно вручную добавлять классы в классификатор при каждом изменении предметной области.
Что это значит
Связка LLM-эмбеддингов с HDBSCAN — готовый инструмент для структурирования больших текстовых датасетов без supervision. Задачи, которые раньше требовали недель ручного труда или дорогой разметки, теперь решаются небольшим скриптом. Для команд, работающих с обратной связью пользователей, медиамониторингом или контентной аналитикой, это прямая экономия ресурсов — и возможность извлекать инсайты из данных, которые раньше просто лежали без дела.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.