Habr AI→ original

Bot Anti-Spam Tab Lançado para Telegram com Rede Neural Personalizada e Aprendizagem de Moderadores

O Telegram agora tem Tab, um bot anti-spam que classifica mensagens usando sua própria rede neural em vez de um modelo pré-treinado. O desenvolvedor curou…

Processado por IA de Habr AI; editado por Hamidun News
Bot Anti-Spam Tab Lançado para Telegram com Rede Neural Personalizada e Aprendizagem de Moderadores
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

No Telegram, surgiu um bot anti-spam chamado Tab, que usa não um modelo pronto de terceiros, mas a própria rede neural do autor. O projeto já está funcionando em chats há vários meses, permanece gratuito para testes e coleta dados para posterior retreinamento.

Como o bot funciona

No coração do Tab está um modelo para classificação binária de mensagens: o bot decide se o texto é spam ou não. O autor não utilizou soluções prontas do Hugging Face e construiu a arquitetura por conta própria, baseando-se na abordagem LSTM. A lógica aqui é clara: para mensagens curtas do Telegram, é importante manter o contexto, e a combinação de uma rede recorrente com mecanismos de atenção fornece uma alternativa mais leve e gerenciável aos grandes modelos universais.

Sobre a própria rede neural, funcionam várias outras regras, que são responsáveis não apenas pela detecção de mensagens suspeitas, mas também pela redução do número de banimentos falsos. O bot leva em conta separadamente se o usuário está na base de spammers, e dependendo disso, ou deleta a mensagem imediatamente, ou deixa a decisão final para o moderador. Essa abordagem híbrida parece mais prática do que a automação pura: o risco de erro na classificação de texto permanece, especialmente em chats ao vivo com linguagem conversacional.

Dados e treinamento

A parte mais difícil do projeto se mostrou não ser o código do bot, mas a preparação dos dados. O autor não encontrou um dataset pronto e atualizado para spam do Telegram em russo, então o corpus teve de ser coletado manualmente: analisando grupos públicos, revisando chats claramente cheios de spam e marcando mensagens uma por uma. Agora o dataset cresceu para mais de 25 mil exemplos, e a precisão principal da classificação depende dele.

Um mecanismo de feedback dos moderadores também foi integrado ao bot. Se uma mensagem foi marcada erroneamente como spam, o moderador pode confirmar que é texto normal, e tal caso entra no dataset como falso positivo. Isso permite não apenas limpar o chat, mas melhorar gradualmente o modelo em exemplos reais de borda, que geralmente prejudicam a qualidade dos sistemas anti-spam.

"Não posiciono esta solução como um matador de spam."

Modos e limitações

Atualmente o Tab suporta dois cenários: um modo padrão mais cauteloso e um modo automático mais rigoroso. No modo padrão, o bot primeiro executa a mensagem através do modelo, depois analisa sinais adicionais, incluindo a presença do usuário na base de spammers. Se não há confiança suficiente, a decisão vai para um humano.

Isso reduz o risco de punir um membro regular do chat por texto contestável.

  • No modo padrão, uma mensagem suspeita pode ir para revisão do moderador
  • No modo automático, spam é deletado imediatamente após o modelo disparar
  • Um banimento está mais ligado à coincidência de dois fatores: classificação de spam e presença na base
  • Usuários podem denunciar mensagens com o comando /spam
  • Admins do chat podem alternar o modo de operação do bot

O principal problema para tais sistemas é a evolução do próprio spam. Spammers disfarçam palavras com caracteres similares de outros alfabetos, inserem espaços entre letras, mudam a apresentação e contexto da mensagem. Isso significa que o modelo não pode ser treinado uma vez e deixado sem vigilância: ele precisa de um fluxo constante de novos exemplos, retreinamento e verificações. Os planos do autor incluem um dashboard público com estatísticas em tempo real e posterior automação da rotulagem, porque é justamente a etapa manual que atualmente mais limita a escalabilidade.

O que isso significa

Tab mostra que mesmo sem um grande time e acesso a infraestrutura pesada, você pode construir uma ferramenta AI aplicada funcionando para um ponto de dor específico de chats do Telegram. Para o mercado, este é outro sinal: modelos de nicho e moderação humana cuidadosa frequentemente dão resultados mais úteis do que tentar resolver tudo com uma grande rede neural universal.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…