إطلاق بوت مكافحة الرسائل غير المرغوبة Tab لـ Telegram مع شبكة عصبية مخصصة والتعلم من المشرفين
يحتوي Telegram الآن على Tab، وهو بوت مكافحة رسائل غير مرغوبة يصنف الرسائل باستخدام شبكة عصبية خاصة به بدلاً من نموذج مُدرب مسبقاً. قام المطور يدويًا بجمع مجموعة

В Telegram появился антиспам-бот Tab, который использует не стороннюю готовую модель, а собственную нейросеть автора. Проект уже несколько месяцев работает в чатах, остаётся бесплатным для тестирования и собирает данные для дальнейшего дообучения.
Как устроен бот В основе
Tab лежит модель для бинарной классификации сообщений: бот решает, относится ли текст к спаму или нет. Автор не стал брать готовые решения из Hugging Face и собрал архитектуру сам, опираясь на LSTM-подход. Логика здесь понятная: для коротких сообщений из Telegram важно удерживать контекст, а сочетание рекуррентной сети с механизмами внимания даёт более лёгкую и управляемую альтернативу большим универсальным моделям.
Поверх самой нейросети работает ещё несколько правил, которые отвечают не только за обнаружение подозрительных сообщений, но и за снижение числа ложных банов. Бот отдельно учитывает, находится ли пользователь в базе спамеров, и в зависимости от этого либо удаляет сообщение сразу, либо оставляет финальное решение модератору. Такой гибридный подход выглядит практичнее чистой автоматизации: риск ошибки у текстовой классификации всё равно остаётся, особенно в живых чатах с разговорным языком.
Данные и обучение Самой тяжёлой частью проекта оказался не код бота, а подготовка данных.
Готового свежего датасета под русскоязычный Telegram-спам автор не нашёл, поэтому корпус пришлось собирать вручную: парсить публичные группы, просматривать заведомо заспамленные чаты и размечать сообщения по одному. Сейчас датасет вырос более чем до 25 тысяч примеров, и именно на нём держится основная точность классификации. Отдельно в бота встроили механизм обратной связи от модераторов. Если сообщение было ошибочно помечено как спам, модератор может подтвердить, что это нормальный текст, и такой кейс уходит в датасет как ложное срабатывание. Это позволяет не просто чистить чат, а постепенно улучшать модель на реальных пограничных примерах, которые обычно и ломают качество антиспам-систем.
«Я не позиционирую это решение как убийцу всего спама».
Режимы и ограничения
Сейчас Tab поддерживает два сценария работы: более осторожный стандартный режим и более жёсткий автоматический. В стандартном режиме бот сначала прогоняет сообщение через модель, а затем смотрит на дополнительные сигналы, включая наличие пользователя в спамерской базе. Если уверенности недостаточно, решение получает человек. Это снижает риск наказать обычного участника чата за спорный текст.
- В стандартном режиме подозрительное сообщение может уйти на проверку модератору В автоматическом режиме спам удаляется сразу после срабатывания модели Бан строже привязан к совпадению двух факторов: спам-классификация и наличие в базе Пользователи могут жаловаться на сообщения командой /spam Админы чата могут переключать режим работы бота Главная проблема для таких систем — эволюция самого спама. Спамеры маскируют слова похожими символами из других алфавитов, вставляют пробелы между буквами, меняют подачу и контекст сообщения. Это означает, что модель нельзя один раз обучить и оставить без присмотра: ей нужен постоянный поток новых примеров, переобучения и проверок. В планах у автора — публичный дашборд со статистикой в реальном времени и дальнейшая автоматизация разметки, потому что именно ручной этап сейчас сильнее всего ограничивает масштабирование.
Что это значит
Tab показывает, что даже без большой команды и доступа к тяжёлой инфраструктуре можно собрать работающий прикладной AI-инструмент под конкретную боль Telegram-чатов. Для рынка это ещё один сигнал: нишевые модели и аккуратная человеческая модерация часто дают более полезный результат, чем попытка решить всё одной большой универсальной нейросетью.