Clustering de textos sin etiquetado: embeddings de LLM y HDBSCAN de Machine Learning Mastery
Los modelos de lenguaje no solo responden en el chat: convierten texto en vectores numéricos con los que se pueden encontrar grupos temáticos de forma…
Procesado por IA desde Machine Learning Mastery; editado por Hamidun News
Los embeddings de LLM han llevado las tareas con texto no estructurado mucho más allá de las interfaces de chat. Machine Learning Mastery publica una guía práctica: cómo combinar representaciones vectoriales de modelos de lenguaje con el algoritmo HDBSCAN — y encontrar automáticamente grupos temáticos en conjuntos de datos de texto sin anotación manual ni conocimiento previo de la estructura de los datos.
Por qué los embeddings cambian las reglas del juego
Los modelos de lenguaje pueden transformar texto en vectores de alta dimensionalidad. Se trata de representaciones numéricas en las que fragmentos semánticamente similares resultan geométricamente cercanos. "Cliente insatisfecho con el precio" y "demasiado caro para mí" serán vecinos en el espacio multidimensional, mientras que "problema con la entrega" terminará en una parte completamente diferente de él. Esto es lo que hace que los embeddings sean una entrada ideal para clustering: el sistema tiene en cuenta el significado, no la coincidencia de palabras clave. Los diccionarios de sinónimos y las reglas ya no son necesarios.
Los modelos populares para obtener embeddings incluyen OpenAI `text-embedding-3-small`, Cohere Embed v3, y también sentence-transformers de código abierto, que funcionan localmente sin costos de API. Un embedding típico tiene una dimensionalidad de 768–3072 — demasiadas para clustering directo. Antes de HDBSCAN, es común aplicar UMAP, que comprime el espacio a 5–50 dimensiones. Sin este paso, el algoritmo se enfrenta a la "maldición de la dimensionalidad": en el espacio de alta dimensión, todos los puntos parecen aproximadamente equidistantes entre sí, y los clusters no se forman.
HDBSCAN versus métodos estándar
La mayoría de los cursos de clustering comienzan con K-means. El problema: el algoritmo requiere especificar el número de clusters de antemano — lo cual es imposible si la estructura de los datos es desconocida. HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) resuelve el problema de manera diferente:
- No requiere especificar el número de clusters de antemano
- Marca automáticamente puntos de "ruido" — textos que no encajan en ningún grupo
- Maneja correctamente clusters de diferentes tamaños y densidades
- Se escala a decenas de miles de documentos
- Proporciona una jerarquía de clusters con granularidad ajustable
Pipeline completo: embeddings → reducción de dimensionalidad mediante UMAP → HDBSCAN → etiquetas de cluster. Todo el código ocupa solo unas pocas docenas de líneas de Python con las librerías `sentence-transformers`, `umap-learn` y `hdbscan`. Para interpretar los temas encontrados, es suficiente pasar algunos ejemplos de cada grupo de vuelta al LLM y pedirle que sugiera un nombre — el ciclo se cierra desde el modelo de lenguaje a la estadística y de vuelta.
Aplicación sin datos de entrenamiento
La principal ventaja de esta combinación es la necesidad cero de anotación. No es necesario ponerse de acuerdo sobre categorías, contratar anotadores o formar un conjunto de entrenamiento. Una sola pipeline descubre la estructura por sí sola.
"La era actual de la IA generativa se centra en interfaces de chat, pero las capacidades de los modelos de lenguaje van mucho más allá", escriben los autores de
Machine Learning Mastery.
Escenarios típicos: clustering de miles de tickets de soporte, categorización automática de flujos de noticias, agrupación de reseñas de productos, análisis de preguntas abiertas de encuestas, detección de patrones anómalos en logs. Los resultados aparecen en minutos, sin anotación previa. El enfoque es especialmente valioso cuando se trabaja con datos que cambian rápidamente: los nuevos temas se descubren automáticamente — no es necesario añadir manualmente clases al clasificador cada vez que el dominio cambia.
Qué significa esto
La combinación de embeddings de LLM con HDBSCAN es una herramienta lista para estructurar grandes conjuntos de datos de texto sin supervisión. Las tareas que anteriormente requerían semanas de trabajo manual o anotación costosa ahora se resuelven con un pequeño script. Para equipos que trabajan con retroalimentación de usuarios, monitoreo de medios o análisis de contenido, esto es un ahorro directo de recursos — y una oportunidad para extraer información de datos que anteriormente simplemente permanecían sin usar.
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.