AWS Machine Learning Blog→ оригинал

Amazon Nova Sonic: три архитектуры для голосовых агентов

AWS выпустила гайд по построению масштабируемых голосовых агентов с Amazon Nova Sonic. В статье разбирают три архитектурные паттерны для обработки звука, способ

Amazon Nova Sonic: три архитектуры для голосовых агентов
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS представила рекомендации по построению масштабируемых голосовых агентов с использованием Amazon Nova Sonic. Это современная модель для обработки естественной речи в real-time сценариях — от customer service и техподдержки до appointment booking и персональных ассистентов. В блоге AWS разбирают три популярные архитектурные паттерны, способы минимизации latency и практики интеграции многоагентных систем.

Amazon

Nova Sonic: модель для диалога Amazon Nova Sonic — это компактная, но мощная модель для голосового взаимодействия, доступная через API Amazon Bedrock. В отличие от больших foundation моделей, Sonic оптимизирована специально для low-latency ответов и обработки потока звука в реальном времени. Она может работать как напрямую со звуком, так и с текстовой транскрипцией, в зависимости от архитектуры. Ключевое преимущество — интеграция с инструментами и внешними API. Агент может не просто ответить на вопрос, но и вызвать функцию: проверить статус заказа, забронировать стол в ресторане, получить прогноз погоды. Всё это происходит внутри одного диалога, без переключения между приложениями.

Три архитектурные паттерна AWS описывает три основных подхода, каждый

с разными trade-off между простотой и функциональностью. Single-turn agentless — самый простой паттерн. Пользователь говорит одну фразу, модель отвечает.

Никакой памяти состояния, никакого управления сессией. Хорошо подходит для FAQ-ботов и простых справочных систем. Быстро и надёжно, но не подходит для сложных процессов, требующих нескольких шагов.

Multi-turn with state — агент помнит контекст диалога и может вести многошаговый разговор. Например, бронирование отеля: «Какие даты?» → «На скольких человек?»

→ «У вас есть предпочтения по локации?» Здесь нужно управлять сессией, сохранять переменные диалога, отслеживать, какой шаг пройден. Bedrock AgentCore помогает с этим.

Multi-agent orchestration — несколько специализированных агентов работают вместе. Например, один агент обрабатывает вопросы про тарифы, другой про техподдержку, третий про оплату. Основной оркестратор решает, кому передать запрос.

Strands BidiAgent обеспечивает чистый двусторонний поток — не просто синтез голоса в ответ, но и обработка живого потока от пользователя.

Минимизация latency: практика Главный вызов голосовых агентов — время отклика.

Пользователь замечает даже 100–200 мс задержки между концом его вопроса и началом ответа. Мозг интерпретирует это как неестественность, агент начинает казаться медленным или подвисшим. AWS рекомендует несколько приёмов: Streaming API вместо batch — не жди полного ответа от модели, отправляй первые токены голоса сразу Кеширование вызовов инструментов — повторные запросы возвращают кешированный результат Session segmentation — система автоматически определяет границы логических блоков разговора Edge deployment — размещай модель поближе к конечному пользователю ## Что это значит Голосовые интерфейсы становятся стандартом взаимодействия: от умных колонок до корпоративных call-центров.

Раньше компаниям приходилось собирать такие системы из отдельных кусков. Теперь AWS даёт готовое решение: модель + инструменты + оркестрация. Если вы строите customer service бота или AI-помощника — это практический гайд из первых рук.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…