Comment BERTopic avec une LLM locale aide Rostelecom à analyser de grands volumes de textes
Un développeur NLP de Rostelecom a présenté un pipeline BERTopic pour automatiser entièrement l’analyse de grands volumes de textes — avis, demandes au support,

L'automatisation de l'analyse de textes est l'une des tâches les plus laborieuses et sous-estimées en NLP. Lorsqu'une entreprise reçoit des dizaines de milliers d'avis, de demandes d'assistance ou de commentaires par jour, la catégorisation manuelle devient non seulement impossible, mais aussi dénuée de sens du point de vue du ROI. Anton, ingénieur NLP chez Rostelecom, a proposé une solution : un pipeline basé sur BERTopic avec un LLM local intégré pour obtenir des noms de sujets interprétables.
Pourquoi l'automatisation de l'analyse de textes est nécessaire
Les grands volumes de texte sont une mine d'or de données non structurées pour toute entreprise. Dans les avis se cachent des plaintes sur des bugs et des lacunes spécifiques, dans les demandes d'assistance se voient des problèmes systémiques et des points faibles, dans les commentaires sur les réseaux sociaux se trouvent des idées pour de nouvelles fonctionnalités et produits. Mais examiner tout cela manuellement, même une petite équipe d'analystes ne peut pas le faire en un jour ni en une semaine.
L'approche classique est de lire manuellement chaque texte, de comprendre son essence, de le distribuer entre les catégories. Avec des volumes de 10 000 ou plus de textes, cela devient économiquement non rentable, pénible pour le spécialiste et long. De plus, la subjectivité s'ajoute : un analyste assignera la plainte à la catégorie "problèmes réseau", un autre à "qualité de service", un troisième à "autre".
La cohérence est perdue, les conclusions deviennent peu fiables.
Comment BERTopic résout le problème du clustering
BERTopic est un framework qui combine plusieurs techniques d'apprentissage automatique pour la découverte automatique de sujets dans les textes. Le processus fonctionne ainsi :
- Embeddings (BERT) : chaque texte est transformé en vecteur de nombres (un embedding), où les textes sémantiquement similaires se situent à proximité dans un espace multidimensionnel. Pour un texte en russe, vous pouvez utiliser ruBERT ou d'autres modèles.
- Clustering (HDBSCAN) : un algorithme rapide trouve des clusters naturels de textes dans cet espace sans avoir besoin de connaître à l'avance le nombre de sujets.
- Interprétation : BERTopic génère un nom pour chaque cluster basé sur TF-IDF — les mots les plus significatifs du groupe.
Le résultat ? Du chaos de 50 000 textes, vous obtenez, par exemple, 15 sujets clairs et naturels : "problèmes d'internet", "questions de facturation", "bugs dans l'application mobile", "demandes de prestations" et ainsi de suite. Cependant, il y a un problème. L'interprétation standard de BERTopic produit souvent des noms étranges comme "abonné_service_numéro" ou "bug_bug_erreur", qui sont difficiles à expliquer au métier. C'est là qu'intervient le modèle de langage.
Intégration d'un LLM local pour l'interprétation
Au lieu de sélectionner mécaniquement des mots du cluster, un modèle de langage local (tel que Mistral 7B ou Llama 2) lit les mots principaux et les documents principaux du cluster, puis génère une description complète en russe : "Les clients se plaignent de la lenteur de la vitesse d'internet en milieu rural, en particulier les week-ends".
"L'intégration d'un LLM local protège la confidentialité des données : toutes les données actuelles restent dans l'entreprise, sans être envoyées à OpenAI, Claude API ou à d'autres services cloud.
C'est critique pour les entreprises travaillant avec des informations sensibles", souligne Anton.
De plus, le modèle local fonctionne plus rapidement que les requêtes API et est complètement indépendant des quotas, des limites et du coût par token traité. Le pipeline fonctionne sans internet, ce qui réduit la latence et augmente la fiabilité du système.
Résultats pratiques et mise à l'échelle
Le pipeline de Rostelecom permet en quelques heures de faire ce qui prenait auparavant plusieurs semaines de travail manuel :
1. Charger un ensemble de textes dans BERTopic (peuvent être des milliers ou des dizaines de milliers d'enregistrements) 2. Obtenir des clusters prêts avec des descriptions de sujets générées par LLM dans un langage que le métier comprend 3. Exporter les résultats vers Excel, CSV ou une base de données pour un travail ultérieur des analystes et des gestionnaires de produits
Plus la possibilité de réutilisation : un nouveau lot est arrivé au support ? Le pipeline se réentraîne en quelques minutes et produit à nouveau un résultat structuré.
Ce que cela signifie pour l'industrie
Les outils NLP sortent activement du laboratoire et des articles scientifiques vers la production réelle. Lorsqu'un ingénieur peut assembler en un jour un pipeline entièrement fonctionnel qui nécessitait auparavant deux à trois semaines de travail manuel et l'expertise d'une équipe entière — cela signifie que NLP devient un outil pratique, non pas une expérience scientifique, accessible uniquement aux grandes entreprises informatiques.