Habr AI→ original

Cómo BERTopic con una LLM local ayuda a Rostelecom a analizar grandes volúmenes de texto

Un desarrollador de NLP de Rostelecom presentó un pipeline con BERTopic para automatizar por completo el análisis de grandes volúmenes de texto — reseñas, solic

Cómo BERTopic con una LLM local ayuda a Rostelecom a analizar grandes volúmenes de texto
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

La automatización del análisis de textos es una de las tareas más laboriosas e infravaloradas en NLP. Cuando una empresa recibe decenas de miles de reseñas, solicitudes de soporte o comentarios al día, la categorización manual se vuelve no solo imposible, sino también insensata desde el punto de vista del ROI. Anton, ingeniero de NLP en Rostelecom, propuso una solución: un pipeline basado en BERTopic con una LLM local integrada para obtener nombres de temas interpretables.

Por qué se necesita la automatización del análisis de textos

Los grandes volúmenes de texto son una mina de oro de datos no estructurados para cualquier empresa. En las reseñas se esconden quejas sobre errores y deficiencias específicas, en las solicitudes de soporte se ven problemas sistémicos y puntos débiles, en los comentarios en redes sociales hay ideas para nuevas funciones y productos. Pero revisar todo esto manualmente, incluso un pequeño equipo de analistas no puede hacerlo en un día ni en una semana.

El enfoque clásico es leer manualmente cada texto, comprender su esencia, distribuirlo entre categorías. Con volúmenes de 10.000 o más textos, esto se vuelve económicamente no rentable, doloroso para el especialista y largo.

Además, se añade la subjetividad: un analista asignará la queja a la categoría "problemas de red", otro a "calidad del servicio", un tercero a "otro". Se pierde la consistencia, las conclusiones se vuelven poco confiables.

Cómo BERTopic resuelve el problema de agrupamiento

BERTopic es un framework que combina varias técnicas de aprendizaje automático para el descubrimiento automático de temas en textos. El proceso funciona así:

  • Embeddings (BERT): cada texto se transforma en un vector de números (un embedding), donde textos semánticamente similares se encuentran cerca en el espacio multidimensional. Para texto en ruso, puede utilizar ruBERT u otros modelos.
  • Agrupamiento (HDBSCAN): un algoritmo rápido encuentra agrupamientos naturales de textos en este espacio sin necesidad de conocer el número de temas de antemano.
  • Interpretación: BERTopic genera un nombre para cada cluster basado en TF-IDF — las palabras más significativas en el grupo.

¿El resultado? Del caos de 50.000 textos obtiene, por ejemplo, 15 temas claros y naturales: "problemas de internet", "preguntas de facturación", "errores en la aplicación móvil", "solicitudes de beneficios" y así sucesivamente. Sin embargo, hay un problema. La interpretación estándar de BERTopic a menudo produce nombres extraños como "suscriptor_servicio_número" o "error_error_fallo", que son difíciles de explicar al negocio. Aquí es donde entra el modelo de lenguaje.

Integración de una LLM local para la interpretación

En lugar de seleccionar mecánicamente palabras del cluster, un modelo de lenguaje local (como Mistral 7B o Llama 2) lee las palabras principales y los documentos principales del cluster, y luego genera una descripción completa en ruso: "Los clientes se quejan de la lentitud de la velocidad de internet en áreas rurales, especialmente los fines de semana".

"La integración de una LLM local protege la confidencialidad de los datos: todos los datos actuales permanecen en la empresa, sin ser enviados a OpenAI, Claude API u otros servicios en la nube.

Esto es crítico para empresas que trabajan con información sensible", enfatiza Anton.

Además, el modelo local funciona más rápido que las solicitudes de API y es completamente independiente de cuotas, límites y costo por token procesado. El pipeline funciona sin internet, lo que reduce la latencia y aumenta la confiabilidad del sistema.

Resultados prácticos y escalabilidad

El pipeline de Rostelecom permite en pocas horas hacer lo que antes llevaba varias semanas de trabajo manual:

1. Cargar un conjunto de textos en BERTopic (pueden ser miles o decenas de miles de registros) 2. Obtener clusters listos con descripciones de temas generadas por LLM en lenguaje que el negocio entiende 3. Exportar resultados a Excel, CSV o base de datos para trabajo adicional de analistas y gerentes de producto

Además de la capacidad de reutilización: ¿llegó un nuevo lote al soporte? El pipeline se vuelve a entrenar en minutos y nuevamente produce un resultado estructurado.

Qué significa esto para la industria

Las herramientas de NLP están saliendo activamente del laboratorio y artículos científicos hacia producción real. Cuando un ingeniero puede en un día montar un pipeline completamente funcional que antes requería dos o tres semanas de trabajo manual y experiencia de todo un equipo — esto significa que NLP se está convirtiendo en una herramienta práctica, no en un experimento científico, accesible solo para grandes empresas de TI.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…