Amazon Nova Sonic: три архитектуры для голосовых агентов
AWS выпустила гайд по построению масштабируемых голосовых агентов с Amazon Nova Sonic. В статье разбирают три архитектурные паттерны для обработки звука, способ

AWS представила рекомендации по построению масштабируемых голосовых агентов с использованием Amazon Nova Sonic. Это современная модель для обработки естественной речи в real-time сценариях — от customer service и техподдержки до appointment booking и персональных ассистентов. В блоге AWS разбирают три популярные архитектурные паттерны, способы минимизации latency и практики интеграции многоагентных систем.
Amazon
Nova Sonic: модель для диалога Amazon Nova Sonic — это компактная, но мощная модель для голосового взаимодействия, доступная через API Amazon Bedrock. В отличие от больших foundation моделей, Sonic оптимизирована специально для low-latency ответов и обработки потока звука в реальном времени. Она может работать как напрямую со звуком, так и с текстовой транскрипцией, в зависимости от архитектуры. Ключевое преимущество — интеграция с инструментами и внешними API. Агент может не просто ответить на вопрос, но и вызвать функцию: проверить статус заказа, забронировать стол в ресторане, получить прогноз погоды. Всё это происходит внутри одного диалога, без переключения между приложениями.
Три архитектурные паттерна AWS описывает три основных подхода, каждый
с разными trade-off между простотой и функциональностью. Single-turn agentless — самый простой паттерн. Пользователь говорит одну фразу, модель отвечает.
Никакой памяти состояния, никакого управления сессией. Хорошо подходит для FAQ-ботов и простых справочных систем. Быстро и надёжно, но не подходит для сложных процессов, требующих нескольких шагов.
Multi-turn with state — агент помнит контекст диалога и может вести многошаговый разговор. Например, бронирование отеля: «Какие даты?» → «На скольких человек?»
→ «У вас есть предпочтения по локации?» Здесь нужно управлять сессией, сохранять переменные диалога, отслеживать, какой шаг пройден. Bedrock AgentCore помогает с этим.
Multi-agent orchestration — несколько специализированных агентов работают вместе. Например, один агент обрабатывает вопросы про тарифы, другой про техподдержку, третий про оплату. Основной оркестратор решает, кому передать запрос.
Strands BidiAgent обеспечивает чистый двусторонний поток — не просто синтез голоса в ответ, но и обработка живого потока от пользователя.
Минимизация latency: практика Главный вызов голосовых агентов — время отклика.
Пользователь замечает даже 100–200 мс задержки между концом его вопроса и началом ответа. Мозг интерпретирует это как неестественность, агент начинает казаться медленным или подвисшим. AWS рекомендует несколько приёмов: Streaming API вместо batch — не жди полного ответа от модели, отправляй первые токены голоса сразу Кеширование вызовов инструментов — повторные запросы возвращают кешированный результат Session segmentation — система автоматически определяет границы логических блоков разговора Edge deployment — размещай модель поближе к конечному пользователю ## Что это значит Голосовые интерфейсы становятся стандартом взаимодействия: от умных колонок до корпоративных call-центров.
Раньше компаниям приходилось собирать такие системы из отдельных кусков. Теперь AWS даёт готовое решение: модель + инструменты + оркестрация. Если вы строите customer service бота или AI-помощника — это практический гайд из первых рук.