Amazon Nova Sonic : trois architectures pour les agents vocaux
AWS a publié un guide sur la construction d’agents vocaux évolutifs avec Amazon Nova Sonic. L’article examine trois modèles architecturaux pour le traitement au

AWS a partagé des recommandations pour construire des agents vocaux évolutifs en utilisant Amazon Nova Sonic. Il s'agit d'un modèle moderne pour traiter la parole naturelle dans des scénarios en temps réel — du service client et du support technique à la prise de rendez-vous et aux assistants personnels. Le blog AWS décrit trois modèles architecturaux populaires, les moyens de minimiser la latence et les pratiques d'intégration des systèmes multi-agents.
Amazon Nova Sonic : un modèle pour le dialogue
Amazon Nova Sonic est un modèle compact mais puissant pour l'interaction vocale, disponible via l'API Amazon Bedrock. Contrairement aux grands modèles de base, Sonic est optimisé spécifiquement pour les réponses à faible latence et le traitement des flux audio en temps réel. Il peut fonctionner à la fois directement avec l'audio et avec la transcription textuelle, selon l'architecture.
L'avantage clé est l'intégration avec les outils et les API externes. Un agent peut non seulement répondre à une question, mais aussi invoquer une fonction : vérifier le statut de la commande, réserver une table au restaurant, obtenir la météo. Tout cela se passe dans une conversation, sans basculer entre les applications.
Trois modèles architecturaux
AWS décrit trois approches principales, chacune avec des compromis différents entre simplicité et fonctionnalité.
Single-turn agentless — le modèle le plus simple. Un utilisateur parle une phrase, le modèle répond. Aucune mémoire d'état, aucune gestion de session. Fonctionne bien pour les chatbots FAQ et les systèmes de référence simples. Rapide et fiable, mais ne convient pas aux processus complexes nécessitant plusieurs étapes.
Multi-turn with state — l'agent se souvient du contexte de la conversation et peut mener un dialogue à plusieurs étapes. Par exemple, réservation d'hôtel : « Quelles dates ? » → « Pour combien de personnes ? » → « Avez-vous des préférences de localisation ? ». Ici, vous devez gérer la session, enregistrer les variables de dialogue, suivre l'étape qui a été complétée. Bedrock AgentCore aide avec cela.
Multi-agent orchestration — plusieurs agents spécialisés travaillent ensemble. Par exemple, un agent traite les questions sur les tarifs, un autre le support technique, un troisième la facturation. L'orchestrateur principal décide à qui transmettre la demande. Strands BidiAgent fournit un flux bidirectionnel propre — non seulement la synthèse vocale en réponse, mais aussi le traitement d'un flux en direct de l'utilisateur.
Minimisation de la latence : pratique
Le principal défi pour les agents vocaux est le temps de réponse. Les utilisateurs remarquent même un délai de 100–200 ms entre la fin de leur question et le début de la réponse. Le cerveau interprète cela comme contre nature, et l'agent commence à sembler lent ou gelé. AWS recommande plusieurs techniques :
- Streaming API au lieu de batch — n'attendez pas la réponse complète du modèle, envoyez les premiers tokens vocaux immédiatement
- Mise en cache des appels d'outils — les demandes répétées retournent le résultat mis en cache
- Session segmentation — le système détermine automatiquement les limites des blocs de conversation logiques
- Edge deployment — placez le modèle plus près de l'utilisateur final
Ce que cela signifie
Les interfaces vocales deviennent la norme pour l'interaction : des haut-parleurs intelligents aux centres d'appels d'entreprise. Auparavant, les entreprises devaient assembler ces systèmes à partir de pièces séparées. Maintenant, AWS fournit une solution prête : modèle + outils + orchestration. Si vous construisez un bot de service client ou un assistant IA — c'est un guide pratique basé sur une expérience directe.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.