StepFun выпустила голосовую модель StepAudio 2.5 Realtime с поддержкой ролеплея
StepFun выпустила голосовую модель StepAudio 2.5 Realtime с полностью кастомизируемыми persona. Модель понимает паралингвистику (интонация, эмоции), поддерживае

StepFun выпустила голосовую модель нового поколения StepAudio 2.5 Realtime. Модель работает end-to-end, воспроизводит речь в реальном времени и может адаптировать голос под любой сценарий через полностью кастомизируемые persona.
Как устроена модель
StepAudio 2.5 Realtime — это целостная система для работы с голосом, объединяющая распознавание и синтез речи. Модель подключается через WebSocket API и поддерживает как китайский, так и английский язык. Real-time обработка означает, что ответ приходит с минимальной задержкой, что критично для интерактивных приложений и голосовых ассистентов. Ключевая фишка StepAudio — полностью кастомизируемые persona без переобучения. Это не просто смена голоса, а полная адаптация под контекст: модель меняет тон, стиль речи, даже акцент в зависимости от того, кого или что она должна озвучить. Это особенно важно для озвучивания персонажей и создания персонализированных ассистентов.
Паралингвистика и естественность
Модель обучена на специальном reinforcement learning (RLHF) для понимания паралингвистики — всего, что находится за линией обычной речи: интонация, ритм, эмоциональная окраска, пауза в нужном месте. Стандартные голосовые системы часто звучат монотонно и неестественно. StepAudio 2.
5 Realtime решает эту проблему, делая речь более живой и выразительной. Особенностями модели являются: Полная кастомизация persona без переобучения Глубокое понимание паралингвистики (интонация, темп, эмоции) Real-time синтез через WebSocket API Поддержка китайского и английского * Специальный RLHF для ролеплея и озвучивания ## Результаты на бенчмарках В апреле 2026 StepAudio 2.5 Realtime прошла независимое тестирование по пяти параметрам и заняла первое место по всем.
Самый впечатляющий результат — 80.41 балла в человеческой оценке, что означает, что люди считают эту модель очень близкой к естественной речи. По пониманию паралингвистики модель набрала 82.
18 балла. Это значит, что модель не только генерирует звук, но и действительно «понимает» смыслы и эмоции, которые стоят за словами. Для голосовых ассистентов это критично — они должны звучать как реальный собеседник, а не как робот, повторяющий текст.
Что это значит
StepAudio 2.5 Realtime — шаг в сторону более естественных голосовых систем, которые конкурируют с OpenAI Voice и ElevenLabs. Для разработчиков это означает появление мощного инструмента для создания приложений с голосовым интерфейсом и реальной эмоциональностью.