La startup de Dani Shcherbakov réduit les pauses des agents vocaux à 0,3 seconde et monte en charge jusqu'à 1 million d'appels par mois
L'équipe de Dani Shcherbakov a montré comment les agents d'appel modernes pilotés par AI s'éloignent des anciens robots scriptés. Leur système maintient une…
Traité par IA depuis Habr AI ; édité par Hamidun News
La startup de Daniil Shcherbakov démontre comment les agents IA vocaux pour les entreprises s'éloignent des robots scénarisés traditionnels. Grâce à l'orchestration personnalisée, aux modèles affinés et à l'intégration CRM, le système répond plus vite que les humains, gère de grands volumes d'appels et est déjà utilisé dans des cas commerciaux.
Pourquoi les appels sonnent plus naturels
La différence clé par rapport aux robots basés sur l'intention classiques est de fonctionner non pas sur un ensemble rigide de phrases, mais sur le contexte de l'entreprise, l'objectif de l'appel et l'historique du dialogue. L'article fournit un exemple d'une pépinière : une cliente a demandé les délais de plantation et la disponibilité d'un poirier avec un système racinaire fermé, et l'agent n'a pas dévié du scénario—il a continué la conversation comme un consultant plutôt que comme un répondeur automatisé. Ces moments, selon l'auteur, changent les attitudes envers les appels sortants : les gens n'entendent pas de pauses infinies, de répétitions et de tentatives pour les rediriger vers la branche d'origine.
« L'automne est une bonne période pour planter des arbres fruitiers. »
Pour les affaires, cela importe non seulement pour l'expérience utilisateur. Un centre d'appels vivant nécessite une formation prolongée, un contrôle de qualité et une embauche constante, tandis que les résultats dépendent toujours de la fatigue des employés et de leur connaissance du domaine. En immobilier, par exemple, un manager ne commence à vendre régulièrement qu'après des centaines ou des milliers d'appels. Un agent IA est exempt de cette variation : il parle de la même manière le matin, la nuit et en fin de semaine, et selon le matériel, les interlocuteurs continuent souvent le dialogue même après avoir appris que ce n'est pas un humain qui appelle.
Comment le stack est construit
En interne, la plateforme est structurée comme un système modulaire avec un orchestrateur unifié. Premièrement, la parole de l'appelant est convertie en texte en temps réel par le module de reconnaissance, puis ce texte est traité par un modèle de langage avec la logique de dialogue, après quoi la réponse va à la synthèse vocale. En parallèle, le système écrit l'historique de contact, le statut du lead et les métriques clés dans le CRM et l'analyse interne.
La métrique clé est une latence inférieure à 0,3 seconde entre la réplique de l'humain et la réponse du système. C'est le seuil auquel la conversation cesse de ressembler à un appel sortant robotique typique et commence à ressembler à un dialogue téléphonique ordinaire.
L'accent est mis particulièrement non sur la LLM elle-même, mais sur la combinaison du modèle avec des contraintes de scénario rigides. Un modèle de base peut générer une réponse plausible mais hors objectif, tandis qu'en ventes, la qualification du lead, les questions obligatoires, le traitement des objections et la progression de la conversation à l'étape suivante sont critiques. Par conséquent, l'équipe a construit leur propre couche de dialogue sur le modèle. Selon l'auteur, elle a été entraînée sur de grands ensembles de véritables conversations commerciales et de scripts clients, et sa tâche est de maintenir la conversation dans la logique métier, même si l'interlocuteur répond de manière non conventionnelle ou change brusquement de sujet.
Quels chiffres obtenons-nous
Le matériel indique que lancer un tel agent prend seulement quelques jours : d'abord, ils collectent des données sur le produit et les scénarios, puis configurent l'agent, connectent le CRM et lancent les tests. Après cela, le système est géré via un tableau de bord cloud où vous pouvez rapidement modifier la logique de dialogue, tester des hypothèses avec des tests A/B et consulter l'analyse pour chaque dialogue.
Déjà à ce stade, la valeur passe des simples économies de coûts à la vitesse de réponse : le service peut composer de grandes bases en quelques minutes, tandis que les concurrents distribuent toujours les leads parmi les opérateurs.
- La conversion en lead qualifié lors d'appels sortants à froid pour un promoteur immobilier a augmenté de 50%.
- Dans le nettoyage, la conversion de demande en lead a augmenté de 48% à 59%.
- Les coûts d'appels sortants dans un cas ont diminué de 60%.
- Le temps de réponse à une demande entrante a chuté de 1,5 heure à 3 secondes.
- Passer de 5 000 à 20 000 appels par jour prend non pas des mois d'embauche, mais quelques jours de configuration.
L'auteur souligne à part la gérabilité. Si dans un centre d'appels traditionnel, seule une petite fraction des conversations est contrôlée, ici, chaque appel peut être analysé et les scénarios rapidement corrigés. C'est important pour les entreprises qui rivalisent pour la même base de contacts : quand une base entière peut être traitée en 9–10 minutes, l'avantage va non à celui qui a plus d'opérateurs, mais à celui qui qualifie les leads plus vite et les transmet aux ventes. Dans ce mode, un million d'appels par mois n'est plus exotique.
Qu'est-ce que cela signifie
Les agents IA vocaux passent progressivement de la catégorie « démos pour effet d'émerveillement » à un véritable outil opérationnel. Si les métriques déclarées sont confirmées sur différentes verticales, l'entreprise obtient non seulement un remplacement pour le support de première ligne, mais un canal de vente et de service géré où la vitesse de réponse, la cohérence du scénario et l'évolutivité importent plus que l'improvisation humaine.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.