ACE-Step 1.5 من ACE Studio يتفوق على Suno v5 ويشغّل توليد الموسيقى محليًا
ACE-Step 1.5 من ACE Studio وStepFun هو حالة نادرة تلحق فيها نماذج الموسيقى open source بـ AI التجاري. يعمل النموذج محليًا بدءًا من 4 GB من VRAM، ويُنتج مسارًا ك

ACE-Step 1.5 претендует на роль первой действительно сильной open source модели для генерации музыки, которая не просто работает локально, а еще и догоняет закрытые сервисы по качеству. По данным разработчиков и разбору на Habr, модель обходит Suno v5 на SongEval, запускается от 4 ГБ VRAM и собирает полный трек за считаные секунды.
Почему это важно
До сих пор рынок AI-музыки был поделен довольно просто: если нужен удобный и качественный результат, пользователи шли в Suno, Udio или другие закрытые сервисы. Open source альтернативы существовали, но обычно проигрывали либо по качеству, либо по скорости, либо по требованиям к железу. ACE-Step 1.
5 пытается сломать эту схему. Модель выпустили ACE Studio и StepFun, а вместе с релизом опубликовали статью на arXiv — для музыкальных генераторов это все еще редкость. По официальной таблице, ACE-Step 1.
5 набирает 8.09 на SongEval, а версия ACE-Step 1.5 XL — 8.
12. Для сравнения, у Suno v5 в той же таблице 7.87.
При этом у модели сильные показатели и по Lyric Alignment: 8.35 у базовой версии и 8.42 у XL.
На практике это означает не только более высокую общую оценку трека, но и лучшее совпадение вокала с текстом, что для генеративной музыки остается одной из самых сложных задач.
Как устроена модель Ключевая идея ACE-Step — разделить сочинение и синтез.
На первой стадии работает Language Model, которая получает пользовательский промт и превращает его в подробный план песни: жанр, темп, структуру куплетов и припевов, инструменты, текст и метаданные. В статье этот модуль описан как своего рода composer agent. Он не генерирует звук напрямую, а снимает с основной аудиомодели задачу угадывать, что именно хотел пользователь.
Чем точнее план, тем меньше хаоса на следующем этапе. На второй стадии включается Diffusion Transformer. Базовая версия использует DiT примерно на 2 млрд параметров, XL — 4 млрд.
Он получает уже готовый план и синтезирует аудио в латентном пространстве, а ускорение достигается за счет дистилляции: вместо привычных 50–100 шагов диффузии модель укладывается в 4–8 шагов. Отсюда и цифры по скорости: полный трек примерно за 2 секунды на A100 и меньше 10 секунд на RTX 3090. Именно связка LM как планировщика и DiT как рендера делает релиз заметным.
Что умеет на практике
Помимо обычного text-to-music, ACE-Step 1.5 пытается стать универсальным инструментом для музыкальной работы, а не просто генератором одного трека по описанию. В проекте заложен тот же сценарий, которого ждут от профессионального софта: можно не только сделать песню с нуля, но и вмешаться в уже готовый материал, перестроить отдельный кусок, переаранжировать исходник или подогнать аккомпанемент под голос. Для open source системы это уже уровень не демо, а полноценной рабочей среды.
- Cover generation — переаранжировка существующей композиции в другом стиле Repainting — перегенерация отдельных фрагментов без пересборки всего трека Vocal-to-BGM — создание аккомпанемента под готовый вокал LoRA fine-tuning — настройка под собственный стиль на небольшом наборе песен Поддержка 50+ языков и треков длиной от 10 секунд до 10 минут Еще один сильный аргумент — требования к железу. Базовый режим может работать локально с менее чем 4 ГБ VRAM, а для более тяжелых конфигураций доступны варианты с offload. Проект поддерживает не только NVIDIA, но и Mac на Apple Silicon, AMD и Intel, а локальный запуск сводится к готовым скриптам с Gradio-интерфейсом. Для музыкантов, продюсеров и разработчиков это выглядит как реальный шанс экспериментировать без облачной подписки и без отправки материалов во внешний сервис.
Где слабые места Разработчики не скрывают, что у модели есть заметные ограничения.
Главная проблема — нестабильность результатов. Один и тот же промт может выдать сильный трек на одном seed и слабый на другом, поэтому авторы прямо называют это gacha-style поведением. Отдельно перечислены грубоватый вокал без нужной нюансировки, слабая работа в некоторых жанрах вроде китайского рэпа, неестественные переходы при repainting и слишком грубый контроль музыкальных параметров.
То есть задать песню с точной аккордовой логикой и полностью предсказуемым результатом пока нельзя. Из-за этого важно не путать модель и сервис. Suno по-прежнему выигрывает у большинства пользователей по простоте: открыл сайт, написал пару строк, получил песню.
ACE-Step 1.5 требует установки, GPU, подбора промтов и терпения к вариативности. Но взамен дает приватность, локальный пайплайн, отсутствие обязательной подписки и возможность дообучения через LoRA.
Для массового пользователя это еще не замена Suno, а вот для тех, кому нужен контроль над процессом, расклад уже меняется.
Что это значит ACE-Step 1.5 показывает, что генерация музыки перестает
быть зоной только для закрытых платформ. Если open source модель уже сейчас обходит коммерческого игрока на части метрик и запускается на потребительском железе, дальше рынок будет двигаться в сторону локальных, настраиваемых и более дешевых музыкальных AI-инструментов.