Habr AI→ original

Bot Anti-Spam Tab Lanzado para Telegram con Red Neuronal Personalizada y Aprendizaje de Moderadores

Telegram ahora tiene Tab, un bot anti-spam que clasifica mensajes usando su propia red neuronal en lugar de un modelo pre-entrenado. El desarrollador curó…

Procesado por IA desde Habr AI; editado por Hamidun News
Bot Anti-Spam Tab Lanzado para Telegram con Red Neuronal Personalizada y Aprendizaje de Moderadores
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

En Telegram ha aparecido un bot anti-spam llamado Tab, que utiliza no un modelo de terceros ya preparado, sino la propia red neuronal del autor. El proyecto ya lleva varios meses funcionando en chats, permanece gratuito para pruebas y recopila datos para su posterior reentrenamiento.

Cómo funciona el bot

En el corazón de Tab hay un modelo para la clasificación binaria de mensajes: el bot decide si el texto es spam o no. El autor no utilizó soluciones listas del Hugging Face, sino que construyó la arquitectura por sí mismo, basándose en el enfoque LSTM. La lógica aquí es clara: para mensajes cortos de Telegram, es importante mantener el contexto, y la combinación de una red recurrente con mecanismos de atención proporciona una alternativa más ligera y manejable a los grandes modelos universales.

Sobre la propia red neuronal actúan varias reglas más, que son responsables no solo de detectar mensajes sospechosos, sino también de reducir el número de bans falsos. El bot toma en cuenta por separado si el usuario está en la base de datos de spammers, y dependiendo de esto, o bien elimina el mensaje de inmediato, o bien deja la decisión final al moderador. Este enfoque híbrido parece más práctico que la automatización pura: el riesgo de error en la clasificación de texto sigue existiendo, especialmente en chats en vivo con lenguaje conversacional.

Datos y entrenamiento

La parte más difícil del proyecto resultó ser no el código del bot, sino la preparación de los datos. El autor no encontró un conjunto de datos listo y actualizado para spam de Telegram en ruso, por lo que el corpus tuvo que recopilarse manualmente: analizando grupos públicos, revisando chats claramente llenos de spam y etiquetando mensajes uno por uno. Ahora el conjunto de datos ha crecido a más de 25 mil ejemplos, y la precisión principal de la clasificación depende de él.

También se integró en el bot un mecanismo de retroalimentación de los moderadores. Si un mensaje fue marcado erróneamente como spam, el moderador puede confirmar que es texto normal, y tal caso entra en el conjunto de datos como falso positivo. Esto permite no solo limpiar el chat, sino mejorar gradualmente el modelo en ejemplos reales fronterizos, que generalmente rompen la calidad de los sistemas anti-spam.

"No posiciono esta solución como un asesino del spam."

Modos y limitaciones

Actualmente Tab soporta dos escenarios: un modo estándar más cauteloso y un modo automático más estricto. En modo estándar, el bot primero pasa el mensaje a través del modelo, luego observa señales adicionales, incluida la presencia del usuario en la base de datos de spammers. Si no hay suficiente confianza, la decisión va a un humano.

Esto reduce el riesgo de castigar a un miembro regular del chat por un texto discutible.

  • En modo estándar, un mensaje sospechoso puede ir a revisión del moderador
  • En modo automático, el spam se elimina inmediatamente después de que el modelo se dispare
  • Un ban está más vinculado a la coincidencia de dos factores: clasificación de spam y presencia en la base de datos
  • Los usuarios pueden reportar mensajes con el comando /spam
  • Los admins del chat pueden cambiar el modo de funcionamiento del bot

El principal problema para tales sistemas es la evolución del propio spam. Los spammers disfrazan palabras con caracteres similares de otros alfabetos, insertan espacios entre letras, cambian la presentación y contexto del mensaje. Esto significa que el modelo no puede entrenarse una vez y dejarse sin supervisión: necesita un flujo constante de nuevos ejemplos, reentrenamiento y verificaciones. Los planes del autor incluyen un panel público con estadísticas en tiempo real y mayor automatización del etiquetado, porque es justamente la etapa manual la que actualmente más limita la escalabilidad.

Qué significa esto

Tab demuestra que incluso sin un gran equipo y acceso a infraestructura pesada, se puede construir una herramienta AI aplicada que funcione para un punto de dolor específico de los chats de Telegram. Para el mercado, esta es otra señal: los modelos especializados y la moderación humana cuidadosa a menudo dan resultados más útiles que intentar resolver todo con una gran red neuronal universal.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…