AWS Machine Learning Blog→ original

Loka a créé un agent vocal sur Amazon Nova 2 Sonic avec une latence inférieure à une seconde

Loka a publié l’architecture d’un agent vocal basé sur Amazon Nova 2 Sonic, un modèle vocal d’AWS qui évite la chaîne classique ASR→LLM→TTS et répond aux…

Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
Loka a créé un agent vocal sur Amazon Nova 2 Sonic avec une latence inférieure à une seconde
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

Loka a publié une analyse architecturale détaillée de la manière dont elle a créé un agent vocal basé sur Amazon Nova 2 Sonic — le modèle de parole nouvelle génération d'AWS. Le défi était direct : construire un bot que les clients ne raccrocheront pas après quelques secondes d'attente.

Le Problème à Résoudre

La voix robotique dans les bots téléphoniques n'est pas qu'une irritation esthétique. Pour les entreprises, cela signifie des pertes directes : le client raccroche, rappelle pour parler à un opérateur humain, ou change de concurrent. La réputation de la marque en souffre, les coûts de support augmentent.

Les systèmes vocaux classiques fonctionnent selon une longue chaîne : reconnaissance vocale (ASR) → conversion en texte → modèle de langage → génération de réponse → synthèse vocale (TTS). La latence s'accumule à chaque étape. En résultat, la pause entre la question du client et la réponse du bot est de 2 à 5 secondes.

Dans ce laps de temps, une personne décide que le système ne fonctionne pas et raccroche ou exige un opérateur humain. Loka s'est proposé de briser cette chaîne et de créer un agent qui répond dans la pause naturelle de la conversation, comme un interlocuteur vivant. La solution s'est avérée être Amazon Nova 2 Sonic.

Ce Que Fait Différemment Nova 2 Sonic

Nova 2 Sonic est un modèle speech-to-speech multimodal d'AWS qui fonctionne directement avec l'audio, contournant les étapes séparées de transcription ASR et de synthèse TTS. Il prend un flux audio en entrée et génère un flux audio en sortie sans conversion intermédiaire en texte. Cela change fondamentalement le profil de latence :

  • Les réponses commencent dans les 300–500 ms après la pause de l'utilisateur
  • Le modèle comprend les interruptions naturelles du discours et y répond correctement
  • Le système entend l'intonation et le contexte émotionnel — et adapte le ton de la réponse
  • La sensation que « le système traite » disparaît complètement du dialogue
  • L'intégration avec la logique métier via function calling ne rompt pas le flux de conversation

Nova 2 Sonic est disponible via Amazon Bedrock, permettant aux entreprises sur AWS de l'intégrer sans changer de fournisseur ou reconstruire complètement son infrastructure.

Architecture en Production

Loka a implémenté la transmission d'audio en temps réel avec un buffer minimal. Le système n'attend pas la déclaration complète de l'utilisateur — il commence le traitement immédiatement, permettant à Nova 2 Sonic de répondre précisément au moment d'une pause naturelle, non après un silence prolongé.

« La voix robotique est la raison principale pour laquelle les clients raccrocher.

Ce n'est pas un problème technique — c'est un problème de confiance », note l'équipe Loka.

Pour accéder aux données métier en temps réel — statut de commande, historique du client, disponibilité des stocks — l'agent utilise l'appel de fonction en temps réel. Pour le client, cela ressemble à une réponse instantanée, non à une pause perceptible en attente de résultats. En production, le système démontre une résilience face aux interruptions, aux changements de sujet et aux pauses non standard — des scénarios où les systèmes ASR classiques échouent généralement.

Ce Que Cela Signifie

Les modèles speech-to-speech éliminent la principale barrière à l'adoption massive des bots vocaux — la latence perceptible qui détruit l'illusion d'une conversation en direct. Si la latence est imperceptible et la voix sonne naturelle, la frontière entre agent et opérateur s'estompe. Pour les entreprises, c'est un chemin direct vers l'automatisation des centres d'appels sans nuire au NPS. Suite à Nova 2 Sonic, des modèles similaires d'autres fournisseurs entreront sur le marché — la concurrence dans le segment de la voix IA ne fait que commencer.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…