Loka построила голосового агента на Amazon Nova 2 Sonic с задержкой менее секунды
Loka опубликовала архитектуру голосового агента на Amazon Nova 2 Sonic — речевой модели AWS, которая минует классическую цепочку ASR→LLM→TTS и отвечает…
AI-обработка оригинала AWS Machine Learning Blog; редакция Hamidun News
Компания Loka опубликовала детальный разбор архитектуры, с помощью которой она создала голосовой агент на базе Amazon Nova 2 Sonic — речевой модели AWS нового поколения. Задача была конкретной: построить бота, от которого клиент не бросит трубку через несколько секунд ожидания.
Проблема, которую решали
Роботизированный голос телефонных ботов — не просто эстетическое раздражение. Для бизнеса это прямые потери: клиент вешает трубку, перезванивает живому оператору или уходит к конкуренту. Репутация бренда падает, расходы на поддержку растут. Классические голосовые системы работают по длинной цепочке: распознавание речи (ASR) → перевод в текст → языковая модель → генерация ответа → синтез голоса (TTS). На каждом этапе накапливается задержка. В итоге пауза между вопросом клиента и ответом бота составляет от 2 до 5 секунд. За это время человек успевает решить, что система не работает, и либо вешает трубку, либо требует живого оператора. Loka поставила задачу разорвать эту цепочку и создать агента, который реагирует в пределах естественной паузы в разговоре, как живой собеседник. Решением стал Amazon Nova 2 Sonic.
Что делает
Nova 2 Sonic иначе Nova 2 Sonic — мультимодальная speech-to-speech модель от AWS, которая работает напрямую с аудио, минуя отдельные шаги ASR-транскрипции и TTS-синтеза. Она принимает звуковой поток на вход и генерирует звуковой поток на выход без промежуточного преобразования в текст. Это принципиально меняет профиль задержки: Ответ начинается в пределах 300–500 мс после паузы пользователя Модель понимает естественные прерывания в речи и корректно на них реагирует Система слышит интонацию и эмоциональный контекст — и адаптирует тон ответа Ощущение «система обрабатывает» полностью исчезает из диалога * Интеграция с бизнес-логикой через function calling не разрывает ход разговора Nova 2 Sonic доступна через Amazon Bedrock, что позволяет компаниям на AWS подключить её без смены провайдера или полной перестройки инфраструктуры.
Архитектура в продакшене
Loka применила потоковую передачу аудио в реальном времени с минимальным буферированием. Система не ждёт полного высказывания пользователя — она начинает обработку сразу, что позволяет Nova 2 Sonic реагировать точно в момент естественной паузы, а не после затяжной тишины.
«Роботизированный голос — главная причина, по которой клиенты бросают трубку.
Это не технологическая проблема — это проблема доверия», — отмечает команда Loka. Для доступа к бизнес-данным в реальном времени — статус заказа, история клиента, остатки товаров — агент использует real-time function calling. Для клиента это выглядит как мгновенный ответ, а не заметная пауза «жду результата». В продакшене система демонстрирует устойчивость к прерываниям, смене темы и нестандартным паузам — сценариям, на которых классические ASR-системы чаще всего дают сбои.
Что это значит
Speech-to-speech модели убирают главный барьер на пути к массовому внедрению голосовых ботов — заметную задержку, разрушающую иллюзию живого разговора. Если латентность не ощущается, а голос звучит естественно, граница между агентом и оператором стирается. Для бизнеса это прямой путь к автоматизации колл-центра без удара по NPS. Вслед за Nova 2 Sonic на рынке появятся аналогичные модели от других провайдеров — конкуренция в сегменте voice AI только начинается.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.