Habr AI→ оригинал

Bot Anti-Spam Tab Lancé pour Telegram avec Réseau Neuronal Personnalisé et Apprentissage des Modérateurs

Telegram a maintenant Tab, un bot anti-spam qui classe les messages avec son propre réseau de neurones au lieu d'un modèle pré-entraîné. Le développeur a manuel

Bot Anti-Spam Tab Lancé pour Telegram avec Réseau Neuronal Personnalisé et Apprentissage des Modérateurs
Источник: Habr AI. Коллаж: Hamidun News.

В Telegram появился антиспам-бот Tab, который использует не стороннюю готовую модель, а собственную нейросеть автора. Проект уже несколько месяцев работает в чатах, остаётся бесплатным для тестирования и собирает данные для дальнейшего дообучения.

Как устроен бот В основе

Tab лежит модель для бинарной классификации сообщений: бот решает, относится ли текст к спаму или нет. Автор не стал брать готовые решения из Hugging Face и собрал архитектуру сам, опираясь на LSTM-подход. Логика здесь понятная: для коротких сообщений из Telegram важно удерживать контекст, а сочетание рекуррентной сети с механизмами внимания даёт более лёгкую и управляемую альтернативу большим универсальным моделям.

Поверх самой нейросети работает ещё несколько правил, которые отвечают не только за обнаружение подозрительных сообщений, но и за снижение числа ложных банов. Бот отдельно учитывает, находится ли пользователь в базе спамеров, и в зависимости от этого либо удаляет сообщение сразу, либо оставляет финальное решение модератору. Такой гибридный подход выглядит практичнее чистой автоматизации: риск ошибки у текстовой классификации всё равно остаётся, особенно в живых чатах с разговорным языком.

Данные и обучение Самой тяжёлой частью проекта оказался не код бота, а подготовка данных.

Готового свежего датасета под русскоязычный Telegram-спам автор не нашёл, поэтому корпус пришлось собирать вручную: парсить публичные группы, просматривать заведомо заспамленные чаты и размечать сообщения по одному. Сейчас датасет вырос более чем до 25 тысяч примеров, и именно на нём держится основная точность классификации. Отдельно в бота встроили механизм обратной связи от модераторов. Если сообщение было ошибочно помечено как спам, модератор может подтвердить, что это нормальный текст, и такой кейс уходит в датасет как ложное срабатывание. Это позволяет не просто чистить чат, а постепенно улучшать модель на реальных пограничных примерах, которые обычно и ломают качество антиспам-систем.

«Я не позиционирую это решение как убийцу всего спама».

Режимы и ограничения

Сейчас Tab поддерживает два сценария работы: более осторожный стандартный режим и более жёсткий автоматический. В стандартном режиме бот сначала прогоняет сообщение через модель, а затем смотрит на дополнительные сигналы, включая наличие пользователя в спамерской базе. Если уверенности недостаточно, решение получает человек. Это снижает риск наказать обычного участника чата за спорный текст.

  • В стандартном режиме подозрительное сообщение может уйти на проверку модератору В автоматическом режиме спам удаляется сразу после срабатывания модели Бан строже привязан к совпадению двух факторов: спам-классификация и наличие в базе Пользователи могут жаловаться на сообщения командой /spam Админы чата могут переключать режим работы бота Главная проблема для таких систем — эволюция самого спама. Спамеры маскируют слова похожими символами из других алфавитов, вставляют пробелы между буквами, меняют подачу и контекст сообщения. Это означает, что модель нельзя один раз обучить и оставить без присмотра: ей нужен постоянный поток новых примеров, переобучения и проверок. В планах у автора — публичный дашборд со статистикой в реальном времени и дальнейшая автоматизация разметки, потому что именно ручной этап сейчас сильнее всего ограничивает масштабирование.

Что это значит

Tab показывает, что даже без большой команды и доступа к тяжёлой инфраструктуре можно собрать работающий прикладной AI-инструмент под конкретную боль Telegram-чатов. Для рынка это ещё один сигнал: нишевые модели и аккуратная человеческая модерация часто дают более полезный результат, чем попытка решить всё одной большой универсальной нейросетью.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…