Clustering de textos sin etiquetado: embeddings de LLM y HDBSCAN de Machine Learning Mastery

Los modelos de lenguaje no solo responden en el chat: convierten texto en vectores numéricos con los que se pueden encontrar grupos temáticos de forma…

Redacción de Hamidun News

Monitoreo de AI · Machine Learning Mastery

29 jun 2026· 2 min

Procesado por IA desde Machine Learning Mastery; editado por Hamidun News

Clustering de textos sin etiquetado: embeddings de LLM y HDBSCAN de Machine Learning Mastery — Fuente: Machine Learning Mastery. Collage: Hamidun News.

◐ Escuchar artículo

Los embeddings de LLM han llevado las tareas con texto no estructurado mucho más allá de las interfaces de chat. Machine Learning Mastery publica una guía práctica: cómo combinar representaciones vectoriales de modelos de lenguaje con el algoritmo HDBSCAN — y encontrar automáticamente grupos temáticos en conjuntos de datos de texto sin anotación manual ni conocimiento previo de la estructura de los datos.

Por qué los embeddings cambian las reglas del juego

Los modelos de lenguaje pueden transformar texto en vectores de alta dimensionalidad. Se trata de representaciones numéricas en las que fragmentos semánticamente similares resultan geométricamente cercanos. "Cliente insatisfecho con el precio" y "demasiado caro para mí" serán vecinos en el espacio multidimensional, mientras que "problema con la entrega" terminará en una parte completamente diferente de él. Esto es lo que hace que los embeddings sean una entrada ideal para clustering: el sistema tiene en cuenta el significado, no la coincidencia de palabras clave. Los diccionarios de sinónimos y las reglas ya no son necesarios.

Los modelos populares para obtener embeddings incluyen OpenAI `text-embedding-3-small`, Cohere Embed v3, y también sentence-transformers de código abierto, que funcionan localmente sin costos de API. Un embedding típico tiene una dimensionalidad de 768–3072 — demasiadas para clustering directo. Antes de HDBSCAN, es común aplicar UMAP, que comprime el espacio a 5–50 dimensiones. Sin este paso, el algoritmo se enfrenta a la "maldición de la dimensionalidad": en el espacio de alta dimensión, todos los puntos parecen aproximadamente equidistantes entre sí, y los clusters no se forman.

HDBSCAN versus métodos estándar

La mayoría de los cursos de clustering comienzan con K-means. El problema: el algoritmo requiere especificar el número de clusters de antemano — lo cual es imposible si la estructura de los datos es desconocida. HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) resuelve el problema de manera diferente:

No requiere especificar el número de clusters de antemano
Marca automáticamente puntos de "ruido" — textos que no encajan en ningún grupo
Maneja correctamente clusters de diferentes tamaños y densidades
Se escala a decenas de miles de documentos
Proporciona una jerarquía de clusters con granularidad ajustable

Pipeline completo: embeddings → reducción de dimensionalidad mediante UMAP → HDBSCAN → etiquetas de cluster. Todo el código ocupa solo unas pocas docenas de líneas de Python con las librerías `sentence-transformers`, `umap-learn` y `hdbscan`. Para interpretar los temas encontrados, es suficiente pasar algunos ejemplos de cada grupo de vuelta al LLM y pedirle que sugiera un nombre — el ciclo se cierra desde el modelo de lenguaje a la estadística y de vuelta.

Aplicación sin datos de entrenamiento

La principal ventaja de esta combinación es la necesidad cero de anotación. No es necesario ponerse de acuerdo sobre categorías, contratar anotadores o formar un conjunto de entrenamiento. Una sola pipeline descubre la estructura por sí sola.

"La era actual de la IA generativa se centra en interfaces de chat, pero las capacidades de los modelos de lenguaje van mucho más allá", escriben los autores de

Machine Learning Mastery.

Escenarios típicos: clustering de miles de tickets de soporte, categorización automática de flujos de noticias, agrupación de reseñas de productos, análisis de preguntas abiertas de encuestas, detección de patrones anómalos en logs. Los resultados aparecen en minutos, sin anotación previa. El enfoque es especialmente valioso cuando se trabaja con datos que cambian rápidamente: los nuevos temas se descubren automáticamente — no es necesario añadir manualmente clases al clasificador cada vez que el dominio cambia.

Qué significa esto

La combinación de embeddings de LLM con HDBSCAN es una herramienta lista para estructurar grandes conjuntos de datos de texto sin supervisión. Las tareas que anteriormente requerían semanas de trabajo manual o anotación costosa ahora se resuelven con un pequeño script. Para equipos que trabajan con retroalimentación de usuarios, monitoreo de medios o análisis de contenido, esto es un ahorro directo de recursos — y una oportunidad para extraer información de datos que anteriormente simplemente permanecían sin usar.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

Reservar consulta gratuita →