Yandex SpeechKit et CosyVoice comparés sur des tâches de bots vocaux et de podcasts audio
Raft a publié la deuxième partie de sa revue des modèles TTS et a comparé CosyVoice à Yandex SpeechKit dans deux scénarios métier : un bot realtime et une longu
Raft выпустила вторую часть обзора TTS-моделей и на этот раз сравнила не только open-source решения, но и проприетарные сервисы. В центре внимания — два практических сценария: голосовой бот с ответами в реальном времени и озвучка длинных текстов для аудиоподкастов.
Как сравнивали
Автор сохранил ту же рамку оценки, что и в первой части обзора, чтобы результаты можно было сопоставлять напрямую. В тест вошли две модели: CosyVoice 3-0.5B от Alibaba и Yandex SpeechKit. Их проверяли не на абстрактных демо, а на задачах, где для бизнеса важны не только качество голоса, но и задержка, стабильность, управляемость и удобство внедрения. Такой формат делает сравнение полезным не для исследовательского интереса, а для выбора конкретного инструмента под продукт.
- Задержка генерации на CPU и GPU Естественность речи: тембр, плавность, темп и интонации Выразительность: эмоции и адаптация к контексту * Легкость интеграции: документация, запуск и настройка Для голосового бота модели прогоняли через короткий медицинский диалог со сложными русскими аббревиатурами вроде ОМС, СНИЛС, ИБС, ЭКГ и ЭХО-КГ. Для подкастного сценария использовали литературный фрагмент из рассказа «Господин из Сан-Франциско» объемом 4868 символов и 728 слов. Такой тест быстро вскрывает типичные проблемы TTS: ошибки в ударениях, провалы в интонации, неестественные паузы и артефакты, которые особенно заметны на длинной дистанции.
CosyVoice в деле
CosyVoice в этом обзоре выступает как сильный open-source кандидат для русского языка. Автор тестировал версию 3-0.5B, а для локального запуска использовал доработанный русскоязычный форк FastCosyVoice.
В сценарии голосового ассистента модель уверенно произносила медицинские сокращения, не давала заметного акцента и в целом звучала естественно. Для команд, которые хотят держать TTS-контур внутри своей инфраструктуры и не зависеть от внешнего API, это очень важный плюс. По метрикам скорости результат получился компромиссным, но предсказуемым для локальной модели.
На короткой тестовой фразе длительностью около 10–15 секунд CosyVoice показала задержку 12,25 секунды на CPU и 3,49 секунды на GPU. Для продакшена это значит, что без нормальной видеокарты рассчитывать на быстрый отклик будет сложно. Зато по субъективным оценкам модель получила 5 баллов за естественность и 5 за выразительность, а это уже сильный аргумент для задач, где голос должен звучать живо, а не как классический автоответчик.
При генерации длинного текста CosyVoice тоже выглядела уверенно: речь получилась чистой, связной и достаточно похожей на голос референсного спикера. Но полностью без оговорок не обошлось — местами появлялись неточные ударения и отдельные интонационные ошибки. Для аудиоподкастов это не критичный минус, но он означает, что перед финальной публикацией озвучки все равно нужен человек, который быстро отсмотрит результат и поправит спорные места.
«...показать, как эти решения ведут себя в реальных продуктовых сценариях».
Сильные стороны SpeechKit Yandex SpeechKit в обзоре выглядит как более зрелый продакшн-инструмент.
У сервиса понятная документация, большой набор русских голосов, несколько характеров озвучки и сценарии, рассчитанные на быструю интеграцию. В тесте голосового бота модель так же уверенно отработала фразы с аббревиатурами, а в длинном тексте выдала более стабильное произношение и ударения. Главный компромисс в другом: голос звучит чуть более роботизированно, чем у лучших современных TTS, особенно если сравнивать только по естественности.
Для бизнеса важнее другое: SpeechKit уже закрывает почти весь прикладной контур вокруг синтеза речи и снижает объем ручной доработки после интеграции. Это не только сам движок озвучки, но и набор сервисных возможностей, которые особенно ценны в боте, контакт-центре и любых сценариях, где надо быстро запускать новые голосовые потоки без долгой инженерной настройки. В статье отдельно выделены такие сильные стороны сервиса: синхронный, асинхронный и потоковый синтез Realtime API для голосовых ботов связка STT и TTS в одном интерфейсе инструменты разметки ударений, пауз и фонетики * возможность создать собственный голос из размеченных записей На короткой фразе SpeechKit показал задержку 1,81 секунды, получил 4 балла за естественность, 5 за выразительность и 5 за легкость интеграции.
В обзоре отдельно разобрана и цена: API v1 стоит 1342 рубля за 1 млн символов в месяц, а API v3 считает запросы блоками по 250 символов. Пример из статьи: синтез 900 символов в v3 обойдется примерно в 0,65 рубля. Для команд это удобная модель, потому что стоимость голосового канала и нагрузку на сервис можно считать заранее, еще до полноценного запуска.
Что это значит Сравнение показывает довольно понятный расклад для рынка русскоязычного TTS.
Если команде важны контроль над стеком, open-source лицензирование и более живое звучание, CosyVoice выглядит сильным вариантом, особенно при наличии GPU и готовности заниматься инфраструктурой. Если нужен быстрый запуск, предсказуемая интеграция и готовые инструменты для call-центра или голосового ассистента, Yandex SpeechKit выглядит практичнее. Выбирать TTS теперь имеет смысл не по абстрактному качеству, а по тому, как модель ведет себя в конкретном продукте и под конкретную нагрузку.