MarkTechPost→ оригинал

StepFun выпустила голосовую модель StepAudio 2.5 Realtime с поддержкой ролеплея

StepFun выпустила голосовую модель StepAudio 2.5 Realtime с полностью кастомизируемыми persona. Модель понимает паралингвистику (интонация, эмоции), поддерживае

StepFun выпустила голосовую модель StepAudio 2.5 Realtime с поддержкой ролеплея
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

StepFun выпустила голосовую модель нового поколения StepAudio 2.5 Realtime. Модель работает end-to-end, воспроизводит речь в реальном времени и может адаптировать голос под любой сценарий через полностью кастомизируемые persona.

Как устроена модель

StepAudio 2.5 Realtime — это целостная система для работы с голосом, объединяющая распознавание и синтез речи. Модель подключается через WebSocket API и поддерживает как китайский, так и английский язык. Real-time обработка означает, что ответ приходит с минимальной задержкой, что критично для интерактивных приложений и голосовых ассистентов. Ключевая фишка StepAudio — полностью кастомизируемые persona без переобучения. Это не просто смена голоса, а полная адаптация под контекст: модель меняет тон, стиль речи, даже акцент в зависимости от того, кого или что она должна озвучить. Это особенно важно для озвучивания персонажей и создания персонализированных ассистентов.

Паралингвистика и естественность

Модель обучена на специальном reinforcement learning (RLHF) для понимания паралингвистики — всего, что находится за линией обычной речи: интонация, ритм, эмоциональная окраска, пауза в нужном месте. Стандартные голосовые системы часто звучат монотонно и неестественно. StepAudio 2.

5 Realtime решает эту проблему, делая речь более живой и выразительной. Особенностями модели являются: Полная кастомизация persona без переобучения Глубокое понимание паралингвистики (интонация, темп, эмоции) Real-time синтез через WebSocket API Поддержка китайского и английского * Специальный RLHF для ролеплея и озвучивания ## Результаты на бенчмарках В апреле 2026 StepAudio 2.5 Realtime прошла независимое тестирование по пяти параметрам и заняла первое место по всем.

Самый впечатляющий результат — 80.41 балла в человеческой оценке, что означает, что люди считают эту модель очень близкой к естественной речи. По пониманию паралингвистики модель набрала 82.

18 балла. Это значит, что модель не только генерирует звук, но и действительно «понимает» смыслы и эмоции, которые стоят за словами. Для голосовых ассистентов это критично — они должны звучать как реальный собеседник, а не как робот, повторяющий текст.

Что это значит

StepAudio 2.5 Realtime — шаг в сторону более естественных голосовых систем, которые конкурируют с OpenAI Voice и ElevenLabs. Для разработчиков это означает появление мощного инструмента для создания приложений с голосовым интерфейсом и реальной эмоциональностью.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…