Bot Anti-Spam Tab Lancé pour Telegram avec Réseau Neuronal Personnalisé et Apprentissage des Modérateurs
Telegram a maintenant Tab, un bot anti-spam qui classe les messages avec son propre réseau de neurones au lieu d'un modèle pré-entraîné. Le développeur a…
Traité par IA depuis Habr AI ; édité par Hamidun News
Sur Telegram, un bot anti-spam appelé Tab a fait son apparition, qui utilise non pas un modèle tiers prêt à l'emploi, mais le propre réseau de neurones de l'auteur. Le projet fonctionne depuis plusieurs mois dans des chats, reste gratuit pour les tests et collecte des données pour un nouvel apprentissage ultérieur.
Comment fonctionne le bot
Au cœur de Tab se trouve un modèle pour la classification binaire des messages : le bot décide si le texte est du spam ou non. L'auteur n'a pas utilisé de solutions prêtes du Hugging Face et a construit l'architecture lui-même, en s'appuyant sur l'approche LSTM. La logique est claire ici : pour les courts messages de Telegram, il est important de maintenir le contexte, et la combinaison d'un réseau de neurones récurrents avec des mécanismes d'attention offre une alternative plus légère et gérable aux grands modèles universels.
En plus du réseau de neurones lui-même, plusieurs autres règles fonctionnent, qui sont responsables non seulement de la détection de messages suspects, mais aussi de la réduction du nombre de faux bans. Le bot tient compte séparément de la question de savoir si l'utilisateur se trouve dans la base de données des spammeurs, et selon ce cas, soit supprime immédiatement le message, soit laisse la décision finale au modérateur. Cette approche hybride semble plus pratique que l'automatisation pure : le risque d'erreur dans la classification de texte subsiste, surtout dans les chats en direct avec un langage conversationnel.
Données et apprentissage
La partie la plus difficile du projet s'est avérée être non pas le code du bot, mais la préparation des données. L'auteur n'a pas trouvé d'ensemble de données prêt et à jour pour le spam de Telegram en russe, donc le corpus a dû être collecté manuellement : en analysant des groupes publics, en passant en revue des chats clairement remplis de spam et en étiquetant les messages un par un. L'ensemble de données a maintenant dépassé les 25 000 exemples, et la précision principale de la classification en dépend.
Un mécanisme de rétroaction des modérateurs a également été intégré au bot. Si un message a été marqué à tort comme spam, le modérateur peut confirmer qu'il s'agit de texte normal, et ce cas est intégré à l'ensemble de données en tant que faux positif. Cela permet non seulement de nettoyer le chat, mais aussi d'améliorer progressivement le modèle sur des exemples limites réels, qui cassent généralement la qualité des systèmes anti-spam.
"Je ne positionne pas cette solution comme un tueur de spam."
Modes et limitations
Actuellement, Tab supporte deux scénarios : un mode standard plus prudent et un mode automatique plus strict. En mode standard, le bot exécute d'abord le message à travers le modèle, puis examine des signaux supplémentaires, y compris la présence de l'utilisateur dans la base de données des spammeurs. Si la confiance est insuffisante, la décision revient à un humain.
Cela réduit le risque de punir un membre régulier du chat pour un texte contestable.
- En mode standard, un message suspect peut aller à l'examen d'un modérateur
- En mode automatique, le spam est supprimé immédiatement après le déclenchement du modèle
- Un ban est davantage lié à la coïncidence de deux facteurs : classification du spam et présence dans la base de données
- Les utilisateurs peuvent signaler des messages avec la commande /spam
- Les administrateurs du chat peuvent basculer le mode de fonctionnement du bot
Le principal problème pour ces systèmes est l'évolution du spam lui-même. Les spammeurs déguisent les mots avec des caractères similaires d'autres alphabets, insèrent des espaces entre les lettres, changent la présentation et le contexte du message. Cela signifie que le modèle ne peut pas être entraîné une fois et laissé sans surveillance : il a besoin d'un flux constant de nouveaux exemples, de réapprentissage et de contrôles. Les plans de l'auteur incluent un tableau de bord public avec des statistiques en temps réel et une automatisation supplémentaire de l'étiquetage, car c'est justement l'étape manuelle qui limite actuellement le plus la scalabilité.
Ce que cela signifie
Tab montre que même sans une grande équipe et sans accès à une infrastructure lourde, il est possible de construire un outil AI appliqué fonctionnant pour un problème spécifique des chats Telegram. Pour le marché, c'est un autre signal : les modèles de niche et la modération humaine attentive donnent souvent des résultats plus utiles qu'une tentative de tout résoudre avec un grand réseau de neurones universel.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.