Кластеризация текстов без разметки: LLM-эмбеддинги и HDBSCAN от Machine Learning Mastery

Языковые модели умеют не только отвечать в чате — они превращают текст в числовые векторы, по которым можно автоматически находить тематические группы…

ЖХ

Редакция Hamidun News

AI‑мониторинг · Machine Learning Mastery

29 июн. 2026 г.· 2 мин

AI-обработка оригинала Machine Learning Mastery; редакция Hamidun News

Кластеризация текстов без разметки: LLM-эмбеддинги и HDBSCAN от Machine Learning Mastery — Источник: Machine Learning Mastery. Коллаж: Hamidun News.

◐ Слушать статью

LLM-эмбеддинги вывели задачи с неструктурированным текстом далеко за пределы чат-интерфейсов. Machine Learning Mastery публикует практическое руководство: как объединить векторные представления языковых моделей с алгоритмом HDBSCAN — и автоматически находить тематические группы в текстовых массивах без ручной разметки или предварительных знаний о структуре данных.

Почему эмбеддинги меняют правила игры

Языковые модели умеют преобразовывать текст в векторы высокой размерности. Это числовые представления, в которых семантически близкие фрагменты оказываются геометрически рядом. «Клиент недоволен ценой» и «слишком дорого для меня» будут соседями в многомерном пространстве, а «проблема с доставкой» окажется в совершенно другой его части.

Именно это делает эмбеддинги идеальным входом для кластеризации: система учитывает смысл, а не совпадение ключевых слов. Словари синонимов и правила больше не нужны. Популярные модели для получения эмбеддингов — OpenAI `text-embedding-3-small`, Cohere Embed v3, а также open-source sentence-transformers, которые работают локально без расходов на API.

Типичный эмбеддинг имеет размерность 768–3072 — слишком много для прямой кластеризации. Перед HDBSCAN принято применять UMAP, который сжимает пространство до 5–50 измерений. Без этого шага алгоритм сталкивается с «проклятием размерности»: в высокоразмерном пространстве все точки выглядят примерно одинаково далёкими, и кластеры не формируются.

HDBSCAN против стандартных методов Большинство курсов по кластеризации начинается с K-means.

Проблема: алгоритм требует заранее задать число кластеров — что невозможно, если структура данных неизвестна. HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) решает задачу иначе: Не требует задавать количество кластеров заранее Автоматически помечает «шумовые» точки — тексты, не вписывающиеся ни в одну группу Корректно обрабатывает кластеры разного размера и плотности Масштабируется на десятки тысяч документов * Даёт иерархию кластеров с управляемой детализацией Полный пайплайн: эмбеддинги → снижение размерности через UMAP → HDBSCAN → метки кластеров. Весь код занимает несколько десятков строк Python с библиотеками `sentence-transformers`, `umap-learn` и `hdbscan`.

Для интерпретации найденных тем достаточно передать несколько примеров из каждой группы обратно в LLM и попросить придумать название — цикл замыкается от языковой модели к статистике и обратно.

Применение без обучающей выборки Главное преимущество связки — нулевая потребность в разметке.

Не нужно договариваться о категориях, нанимать асессоров или формировать training set. Один пайплайн обнаруживает структуру сам.

«Текущая эпоха генеративного ИИ сосредоточена на чат-интерфейсах, но возможности языковых моделей далеко этим не ограничиваются», — пишут авторы Machine Learning Mastery.

Типичные сценарии: кластеризация тысяч обращений в поддержку, автоматическая рубрикация новостных потоков, группировка отзывов на продукт, анализ открытых вопросов из опросов, обнаружение аномальных паттернов в логах. Результат появляется за минуты, без предварительной разметки. Подход особенно ценен при работе с быстроменяющимися данными: новые темы обнаруживаются автоматически — не нужно вручную добавлять классы в классификатор при каждом изменении предметной области.

Что это значит

Связка LLM-эмбеддингов с HDBSCAN — готовый инструмент для структурирования больших текстовых датасетов без supervision. Задачи, которые раньше требовали недель ручного труда или дорогой разметки, теперь решаются небольшим скриптом. Для команд, работающих с обратной связью пользователей, медиамониторингом или контентной аналитикой, это прямая экономия ресурсов — и возможность извлекать инсайты из данных, которые раньше просто лежали без дела.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.