Loka a créé un agent vocal sur Amazon Nova 2 Sonic avec une latence inférieure à une seconde
Loka a publié l’architecture d’un agent vocal basé sur Amazon Nova 2 Sonic, un modèle vocal d’AWS qui évite la chaîne classique ASR→LLM→TTS et répond aux…
Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
Loka a publié une analyse architecturale détaillée de la manière dont elle a créé un agent vocal basé sur Amazon Nova 2 Sonic — le modèle de parole nouvelle génération d'AWS. Le défi était direct : construire un bot que les clients ne raccrocheront pas après quelques secondes d'attente.
Le Problème à Résoudre
La voix robotique dans les bots téléphoniques n'est pas qu'une irritation esthétique. Pour les entreprises, cela signifie des pertes directes : le client raccroche, rappelle pour parler à un opérateur humain, ou change de concurrent. La réputation de la marque en souffre, les coûts de support augmentent.
Les systèmes vocaux classiques fonctionnent selon une longue chaîne : reconnaissance vocale (ASR) → conversion en texte → modèle de langage → génération de réponse → synthèse vocale (TTS). La latence s'accumule à chaque étape. En résultat, la pause entre la question du client et la réponse du bot est de 2 à 5 secondes.
Dans ce laps de temps, une personne décide que le système ne fonctionne pas et raccroche ou exige un opérateur humain. Loka s'est proposé de briser cette chaîne et de créer un agent qui répond dans la pause naturelle de la conversation, comme un interlocuteur vivant. La solution s'est avérée être Amazon Nova 2 Sonic.
Ce Que Fait Différemment Nova 2 Sonic
Nova 2 Sonic est un modèle speech-to-speech multimodal d'AWS qui fonctionne directement avec l'audio, contournant les étapes séparées de transcription ASR et de synthèse TTS. Il prend un flux audio en entrée et génère un flux audio en sortie sans conversion intermédiaire en texte. Cela change fondamentalement le profil de latence :
- Les réponses commencent dans les 300–500 ms après la pause de l'utilisateur
- Le modèle comprend les interruptions naturelles du discours et y répond correctement
- Le système entend l'intonation et le contexte émotionnel — et adapte le ton de la réponse
- La sensation que « le système traite » disparaît complètement du dialogue
- L'intégration avec la logique métier via function calling ne rompt pas le flux de conversation
Nova 2 Sonic est disponible via Amazon Bedrock, permettant aux entreprises sur AWS de l'intégrer sans changer de fournisseur ou reconstruire complètement son infrastructure.
Architecture en Production
Loka a implémenté la transmission d'audio en temps réel avec un buffer minimal. Le système n'attend pas la déclaration complète de l'utilisateur — il commence le traitement immédiatement, permettant à Nova 2 Sonic de répondre précisément au moment d'une pause naturelle, non après un silence prolongé.
« La voix robotique est la raison principale pour laquelle les clients raccrocher.
Ce n'est pas un problème technique — c'est un problème de confiance », note l'équipe Loka.
Pour accéder aux données métier en temps réel — statut de commande, historique du client, disponibilité des stocks — l'agent utilise l'appel de fonction en temps réel. Pour le client, cela ressemble à une réponse instantanée, non à une pause perceptible en attente de résultats. En production, le système démontre une résilience face aux interruptions, aux changements de sujet et aux pauses non standard — des scénarios où les systèmes ASR classiques échouent généralement.
Ce Que Cela Signifie
Les modèles speech-to-speech éliminent la principale barrière à l'adoption massive des bots vocaux — la latence perceptible qui détruit l'illusion d'une conversation en direct. Si la latence est imperceptible et la voix sonne naturelle, la frontière entre agent et opérateur s'estompe. Pour les entreprises, c'est un chemin direct vers l'automatisation des centres d'appels sans nuire au NPS. Suite à Nova 2 Sonic, des modèles similaires d'autres fournisseurs entreront sur le marché — la concurrence dans le segment de la voix IA ne fait que commencer.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.