Lemana Tech mostró cómo combinó LLM, RAG y ML tradicional en soporte técnico
Lemana Tech explicó cómo reestructuró el soporte tras el aumento del volumen de solicitudes: dejó la clasificación masiva en manos del ML tradicional y…
Procesado por IA desde Habr AI; editado por Hamidun News
Lemana Tech compartió cómo reestructuró la automatización del Service Desk después de un aumento en el volumen de solicitudes. La empresa no reemplazó todo el soporte con un único modelo grande, sino que montó un esquema híbrido: la clasificación masiva quedó en manos del ML clásico, mientras que el LLM con RAG se conectó solo donde realmente aporta valor.
Por Qué el ML Clásico No Era Suficiente
Dentro del ecosistema de Lemana Tech hay más de 500 sistemas empresariales, 2500 operaciones de servicio y alrededor de 100 mil solicitudes de soporte al mes. Para una carga de este tipo, importa no solo la calidad del modelo, sino también el coste del error, la velocidad de reacción y el coste computacional. El stack básico basado en boosting y TF-IDF funcionó bien durante mucho tiempo: un modelo con características adicionales como puesto, lugar de trabajo y hora de solicitud entregaba F1 alrededor de 0,86 y cubría una gran parte de los flujos típicos. Pero conforme creció el número de escenarios, esto dejó de ser suficiente.
El equipo probó LSTM, GRU, BERT, RoBERTa, Electra, Yandex Foundation Models y adaptadores LoRA para LLMs abiertos. Algunos enfoques perdieron frente al boosting en métricas, otros resultaron demasiado costosos de entrenar. Al final, el mejor resultado para clasificación no provino de un enfoque "puro" de LLM, sino de un transformer con características tabulares adicionales y atención aditiva: este esquema elevó F1 macro a 0,89 y consideró mejor el contexto de cada empleado.
Dónde Se Activa RAG
El LLM en esta arquitectura no intenta resolver todo. Se activa solo en las clases de solicitud donde el usuario necesita una respuesta significativa de la documentación interna, no solo el enrutamiento correcto del ticket. Un ejemplo es el soporte para la plataforma MLOps, donde los empleados necesitan respuestas sobre Kubeflow, Jenkins y pipelines internos.
Aquí la solicitud va al chat, pasa por el clasificador y entra en el circuito RAG basado en Qwen2.5 8B con un embedder personalizado. Si la respuesta se encuentra en la base de conocimiento, el usuario la recibe en aproximadamente 60 segundos.
Si el modelo no está seguro del resultado, o la persona presiona el comando para cambiar a un especialista, el ticket va inmediatamente a un experto en vivo sin esperar el SLA normal. Este es un punto importante: el LLM no pone una barrera innecesaria frente al humano, sino que funciona como una primera capa rápida donde se puede ahorrar tiempo de especialistas L4 costosos manteniendo control sobre la calidad.
- Qwen2.5 8B se usa en versión cuantizada para CPU
- Embedder personalizado entrenado en 10 mil tripletas
- La precisión de búsqueda en la base de conocimiento alcanzó 92% Hit@3
- La escalada se dispara con puntuación de confianza por debajo de 0,7
- El usuario puede cambiar instantáneamente a un humano
Lo Que Funcionó Mejor
Una parte separada del caso es la autorresolución. El equipo encontró patrones recurrentes de solicitudes que podían cerrarse sin participación del soporte, pero no automatizó ciegamente todas las respuestas frecuentes. Para filtrar, utilizó Qwen2.5 14B: el modelo evaluaba si una persona realmente podría resolver el problema por cuenta propia mediante instrucciones o si nada funcionaría sin un empleado. Esto eliminó patrones falsos como el restablecimiento de contraseña, donde el correo es estándar, pero la acción igualmente debe realizarla un especialista.
"Usar LLM en todas partes, como es tendencia ahora, no es el enfoque correcto."
Después de este filtro, lo que corre en producción nuevamente no es un LLM, sino un modelo ligero—regresión logística. Aprende rápido, cuesta casi nada en inferencia y puede servir continuamente el flujo de solicitudes. El resultado: Lemana Tech reporta crecimiento en clasificación automatizada del 55% al 76%, aumento en precisión de clasificación al 92% considerando umbrales, y aceleración de 20x en autorresoluciones y respuestas del bot exitosas. El LLM no reemplazó el ML clásico aquí, sino que ocupó un lugar estrecho pero valioso en la cadena.
Qué Significa Esto
El caso de Lemana Tech ilustra bien la lógica actual y madura de implementar IA generativa en soporte: los LLM costosos no tienen que ser el núcleo de todo el sistema. A menudo el mejor resultado viene de un híbrido donde el ML clásico clasifica rápidamente el flujo, RAG responde solo en zonas de dominio complejas, y los humanos se conectan sin fricción si la confianza del modelo es insuficiente. Para equipos corporativos, este es probablemente un camino más realista que intentar mover todo el Service Desk a un único modelo universal.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.