Loka построила голосового агента на Amazon Nova 2 Sonic с задержкой менее секунды

Q: Источник материала?

Оригинальная публикация на AWS Machine Learning Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

28 июн. 2026 г.. Время чтения: 3 мин.

Loka опубликовала архитектуру голосового агента на Amazon Nova 2 Sonic — речевой модели AWS, которая минует классическую цепочку ASR→LLM→TTS и отвечает…

ЖХ

Редакция Hamidun News

AI‑мониторинг · AWS Machine Learning Blog

28 июн. 2026 г.· 2 мин

AI-обработка оригинала AWS Machine Learning Blog; редакция Hamidun News

Loka построила голосового агента на Amazon Nova 2 Sonic с задержкой менее секунды — Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

◐ Слушать статью

Компания Loka опубликовала детальный разбор архитектуры, с помощью которой она создала голосовой агент на базе Amazon Nova 2 Sonic — речевой модели AWS нового поколения. Задача была конкретной: построить бота, от которого клиент не бросит трубку через несколько секунд ожидания.

Проблема, которую решали

Роботизированный голос телефонных ботов — не просто эстетическое раздражение. Для бизнеса это прямые потери: клиент вешает трубку, перезванивает живому оператору или уходит к конкуренту. Репутация бренда падает, расходы на поддержку растут. Классические голосовые системы работают по длинной цепочке: распознавание речи (ASR) → перевод в текст → языковая модель → генерация ответа → синтез голоса (TTS). На каждом этапе накапливается задержка. В итоге пауза между вопросом клиента и ответом бота составляет от 2 до 5 секунд. За это время человек успевает решить, что система не работает, и либо вешает трубку, либо требует живого оператора. Loka поставила задачу разорвать эту цепочку и создать агента, который реагирует в пределах естественной паузы в разговоре, как живой собеседник. Решением стал Amazon Nova 2 Sonic.

Что делает

Nova 2 Sonic иначе Nova 2 Sonic — мультимодальная speech-to-speech модель от AWS, которая работает напрямую с аудио, минуя отдельные шаги ASR-транскрипции и TTS-синтеза. Она принимает звуковой поток на вход и генерирует звуковой поток на выход без промежуточного преобразования в текст. Это принципиально меняет профиль задержки: Ответ начинается в пределах 300–500 мс после паузы пользователя Модель понимает естественные прерывания в речи и корректно на них реагирует Система слышит интонацию и эмоциональный контекст — и адаптирует тон ответа Ощущение «система обрабатывает» полностью исчезает из диалога * Интеграция с бизнес-логикой через function calling не разрывает ход разговора Nova 2 Sonic доступна через Amazon Bedrock, что позволяет компаниям на AWS подключить её без смены провайдера или полной перестройки инфраструктуры.

Архитектура в продакшене

Loka применила потоковую передачу аудио в реальном времени с минимальным буферированием. Система не ждёт полного высказывания пользователя — она начинает обработку сразу, что позволяет Nova 2 Sonic реагировать точно в момент естественной паузы, а не после затяжной тишины.

«Роботизированный голос — главная причина, по которой клиенты бросают трубку.

Это не технологическая проблема — это проблема доверия», — отмечает команда Loka. Для доступа к бизнес-данным в реальном времени — статус заказа, история клиента, остатки товаров — агент использует real-time function calling. Для клиента это выглядит как мгновенный ответ, а не заметная пауза «жду результата». В продакшене система демонстрирует устойчивость к прерываниям, смене темы и нестандартным паузам — сценариям, на которых классические ASR-системы чаще всего дают сбои.

Что это значит

Speech-to-speech модели убирают главный барьер на пути к массовому внедрению голосовых ботов — заметную задержку, разрушающую иллюзию живого разговора. Если латентность не ощущается, а голос звучит естественно, граница между агентом и оператором стирается. Для бизнеса это прямой путь к автоматизации колл-центра без удара по NPS. Вслед за Nova 2 Sonic на рынке появятся аналогичные модели от других провайдеров — конкуренция в сегменте voice AI только начинается.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация