Habr AI→ original

Lemana Tech a montré comment elle a combiné LLM, RAG et ML traditionnel dans le support technique

Lemana Tech a expliqué comment elle a réorganisé le support après la hausse du volume de demandes : la classification de masse est restée confiée au ML…

Traité par IA depuis Habr AI ; édité par Hamidun News
Lemana Tech a montré comment elle a combiné LLM, RAG et ML traditionnel dans le support technique
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Lemana Tech a partagé comment elle a restructuré l'automatisation du Service Desk après une augmentation du volume de demandes. L'entreprise n'a pas remplacé tout le support par un seul grand modèle, mais a assemblé un schéma hybride : la classification massive a été laissée au ML classique, tandis que le LLM avec RAG a été connecté uniquement là où cela apporte vraiment de la valeur.

Pourquoi le ML Classique Ne Suffisait Pas

Au sein de l'écosystème de Lemana Tech, il existe plus de 500 systèmes métier, 2500 opérations de service et environ 100 000 demandes de support par mois. Pour une telle charge, la qualité du modèle importe, mais aussi le coût de l'erreur, la vitesse de réaction et le coût informatique. La stack de base basée sur le boosting et TF-IDF a bien fonctionné pendant longtemps : un modèle avec des features supplémentaires comme le poste, le lieu de travail et l'heure de la demande délivrait un F1 autour de 0,86 et couvrait une grande part des parcours typiques. Mais à mesure que le nombre de scénarios augmentait, cela n'était plus suffisant.

L'équipe a testé LSTM, GRU, BERT, RoBERTa, Electra, Yandex Foundation Models et les adaptateurs LoRA pour les LLM ouverts. Certaines approches ont perdu face aux boosting en métriques, d'autres se sont avérées trop coûteuses à entraîner. Au final, le meilleur résultat pour la classification n'est pas venu d'une approche « pure » de LLM, mais d'un transformer avec des features tabulaires supplémentaires et une attention additive : ce schéma a élevé le F1 macro à 0,89 et a mieux pris en compte le contexte de chaque employé.

Où RAG Est Activé

Le LLM dans cette architecture n'essaie pas de tout résoudre. Il est activé uniquement pour les classes de demandes où l'utilisateur a besoin d'une réponse significative de la documentation interne, pas seulement du routage correct du ticket. Un exemple est le support de la plateforme MLOps, où les employés ont besoin de réponses sur Kubeflow, Jenkins et les pipelines internes.

Ici la demande va au chat, passe par le classificateur et entre dans la boucle RAG basée sur Qwen2.5 8B avec un embedder personnalisé. Si la réponse est trouvée dans la base de connaissances, l'utilisateur la reçoit en environ 60 secondes.

Si le modèle n'est pas confiant dans le résultat, ou que la personne appuie sur la commande pour basculer vers un spécialiste, le ticket va immédiatement vers un expert humain sans attendre le SLA normal. C'est un point important : le LLM ne met pas une barrière inutile devant l'humain, mais fonctionne comme une première couche rapide où on peut économiser le temps de coûteux spécialistes L4 tout en maintenant le contrôle de la qualité.

  • Qwen2.5 8B est utilisé en version quantifiée pour CPU
  • Embedder personnalisé entraîné sur 10 000 triplets
  • La précision de la recherche dans la base de connaissances a atteint 92% Hit@3
  • L'escalade se déclenche avec un score de confiance inférieur à 0,7
  • L'utilisateur peut instantanément basculer vers un humain

Ce Qui A Marché le Mieux

Une partie distincte du cas est l'autorésolution. L'équipe a trouvé des modèles récurrents de demandes qui pouvaient être fermées sans participation du support, mais n'a pas automatisé aveuglément toutes les réponses fréquentes. Pour filtrer, elle a utilisé Qwen2.5 14B : le modèle évaluait si une personne pouvait réellement résoudre le problème par elle-même par les instructions ou si rien ne fonctionnerait sans un employé. Cela a éliminé les faux modèles comme la réinitialisation du mot de passe, où l'email est standard, mais l'action doit toujours être effectuée par un spécialiste.

«

Utiliser le LLM partout, comme c'est à la mode maintenant, n'est pas la bonne approche. »

Après ce filtrage, ce qui tourne en production n'est à nouveau pas un LLM, mais un modèle léger—régression logistique. Il apprend vite, ne coûte presque rien en inférence et peut servir en continu le flux de demandes. Le résultat : Lemana Tech rapporte une croissance de la classification automatisée de 55% à 76%, une augmentation de la précision de classification à 92% en tenant compte des seuils, et une accélération 20x dans les autorésolutions et réponses du bot réussies. Le LLM n'a pas remplacé le ML classique ici, mais a pris une place étroite mais précieuse dans la chaîne.

Ce Que Cela Signifie

Le cas de Lemana Tech illustre bien la logique actuelle mature de déployer l'IA générative dans le support : les LLM coûteux n'ont pas besoin d'être le cœur de tout le système. Souvent le meilleur résultat vient d'un hybride où le ML classique trie rapidement le flux, RAG répond seulement dans les zones de domaine complexes, et les humains se connectent sans friction si la confiance du modèle est insuffisante. Pour les équipes d'entreprise, c'est probablement un chemin plus réaliste qu'essayer de déplacer tout le Service Desk vers un seul modèle universel.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…