Habr AI→ original

Como BERTopic com uma LLM local ajuda Rostelecom a analisar grandes volumes de texto

Um desenvolvedor de NLP da Rostelecom apresentou um pipeline com BERTopic para automatizar completamente a análise de grandes volumes de texto — avaliações, sol

Como BERTopic com uma LLM local ajuda Rostelecom a analisar grandes volumes de texto
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A automação da análise de textos é uma das tarefas mais trabalhosas e subestimadas em NLP. Quando uma empresa recebe dezenas de milhares de avaliações, solicitações de suporte ou comentários por dia, a categorização manual torna-se não apenas impossível, mas também sem sentido do ponto de vista do ROI. Anton, um engenheiro de NLP da Rostelecom, propôs uma solução: um pipeline baseado em BERTopic com uma LLM local integrada para obter nomes de tópicos interpretáveis.

Por que a automação de análise de textos é necessária

Grandes volumes de texto são uma mina de ouro de dados não estruturados para qualquer empresa. Em avaliações estão escondidas reclamações sobre bugs e deficiências específicas, em solicitações de suporte estão visíveis problemas sistêmicos e pontos fracos, em comentários nas redes sociais estão ideias para novos recursos e produtos. Mas revisar tudo isso manualmente pode levar a um pequeno time de analistas não em um dia e nem em uma semana.

A abordagem clássica é ler manualmente cada texto, entender sua essência, distribuir em categorias. Com volumes de 10.000 ou mais textos, isso se torna economicamente não rentável, doloroso para o especialista e demorado.

Além disso, adiciona-se a subjetividade: um analista atribuirá a reclamação à categoria "problemas de rede", outro a "qualidade do serviço", um terceiro a "outro". A consistência é perdida, as conclusões se tornam não confiáveis.

Como BERTopic resolve o problema de clustering

BERTopic é um framework que combina várias técnicas de aprendizado de máquina para descoberta automática de tópicos em textos. O processo funciona assim:

  • Embeddings (BERT): cada texto é transformado em um vetor de números (um embedding), onde textos semanticamente similares ficam próximos em espaço multidimensional. Para texto em russo, você pode usar ruBERT ou outros modelos.
  • Clustering (HDBSCAN): um algoritmo rápido encontra agrupamentos naturais de textos neste espaço sem precisar saber antecipadamente o número de tópicos.
  • Interpretação: BERTopic gera um nome para cada cluster baseado em TF-IDF — as palavras mais significativas no grupo.

O resultado? Do caos de 50.000 textos você obtém, por exemplo, 15 tópicos claros e naturais: "problemas de internet", "questões de faturamento", "bugs no aplicativo móvel", "solicitações de benefícios" e assim por diante. No entanto, há um porém. A interpretação padrão de BERTopic frequentemente produz nomes estranhos como "assinante_serviço_número" ou "bug_bug_erro", que são difíceis de explicar ao negócio. É aqui que entra o modelo de linguagem.

Integrando uma LLM local para interpretação

Em vez de selecionar mecanicamente palavras do cluster, um modelo de linguagem local (como Mistral 7B ou Llama 2) lê as principais palavras e os principais documentos do cluster e então gera uma descrição completa em russo: "Os clientes reclamam de velocidade lenta da internet em áreas rurais, especialmente nos fins de semana".

"A integração de uma LLM local protege a confidencialidade dos dados: todos os dados atuais permanecem na empresa, sem serem enviados para OpenAI, Claude API ou outros serviços em nuvem.

Isso é crítico para empresas que trabalham com informações sensíveis", enfatiza Anton.

Além disso, o modelo local funciona mais rápido que solicitações de API e é completamente independente de quotas, limites e custo por token processado. O pipeline funciona sem internet, o que reduz a latência e aumenta a confiabilidade do sistema.

Resultados práticos e escalabilidade

O pipeline da Rostelecom permite em poucas horas fazer o que anteriormente levava várias semanas de trabalho manual:

1. Carregar um conjunto de textos em BERTopic (podem ser milhares ou dezenas de milhares de registros) 2. Obter clusters prontos com descrições de tópicos geradas por LLM em linguagem que o negócio entende 3. Exportar resultados para Excel, CSV ou banco de dados para trabalho adicional de analistas e gerentes de produto

Além da possibilidade de reutilização: um novo lote chegou no suporte? O pipeline se retreina em minutos e novamente fornece um resultado estruturado.

O que isso significa para a indústria

Ferramentas de NLP estão saindo ativamente do laboratório e papers científicos para produção real. Quando um engenheiro pode em um dia montar um pipeline completamente funcional que antes levava duas a três semanas de trabalho manual e experiência de toda uma equipe — isso significa que NLP está se tornando uma ferramenta prática, não um experimento científico, acessível apenas para grandes empresas de TI.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…