Habr AI→ оригинал

ACE-Step 1.5 de ACE Studio supera a Suno v5 y ejecuta la generación de música localmente

ACE-Step 1.5 de ACE Studio y StepFun es un caso raro en el que la generación musical open source alcanza al AI comercial. El modelo se ejecuta localmente desde

ACE-Step 1.5 de ACE Studio supera a Suno v5 y ejecuta la generación de música localmente
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

ACE-Step 1.5 претендует на роль первой действительно сильной open source модели для генерации музыки, которая не просто работает локально, а еще и догоняет закрытые сервисы по качеству. По данным разработчиков и разбору на Habr, модель обходит Suno v5 на SongEval, запускается от 4 ГБ VRAM и собирает полный трек за считаные секунды.

Почему это важно

До сих пор рынок AI-музыки был поделен довольно просто: если нужен удобный и качественный результат, пользователи шли в Suno, Udio или другие закрытые сервисы. Open source альтернативы существовали, но обычно проигрывали либо по качеству, либо по скорости, либо по требованиям к железу. ACE-Step 1.

5 пытается сломать эту схему. Модель выпустили ACE Studio и StepFun, а вместе с релизом опубликовали статью на arXiv — для музыкальных генераторов это все еще редкость. По официальной таблице, ACE-Step 1.

5 набирает 8.09 на SongEval, а версия ACE-Step 1.5 XL — 8.

12. Для сравнения, у Suno v5 в той же таблице 7.87.

При этом у модели сильные показатели и по Lyric Alignment: 8.35 у базовой версии и 8.42 у XL.

На практике это означает не только более высокую общую оценку трека, но и лучшее совпадение вокала с текстом, что для генеративной музыки остается одной из самых сложных задач.

Как устроена модель Ключевая идея ACE-Step — разделить сочинение и синтез.

На первой стадии работает Language Model, которая получает пользовательский промт и превращает его в подробный план песни: жанр, темп, структуру куплетов и припевов, инструменты, текст и метаданные. В статье этот модуль описан как своего рода composer agent. Он не генерирует звук напрямую, а снимает с основной аудиомодели задачу угадывать, что именно хотел пользователь.

Чем точнее план, тем меньше хаоса на следующем этапе. На второй стадии включается Diffusion Transformer. Базовая версия использует DiT примерно на 2 млрд параметров, XL — 4 млрд.

Он получает уже готовый план и синтезирует аудио в латентном пространстве, а ускорение достигается за счет дистилляции: вместо привычных 50–100 шагов диффузии модель укладывается в 4–8 шагов. Отсюда и цифры по скорости: полный трек примерно за 2 секунды на A100 и меньше 10 секунд на RTX 3090. Именно связка LM как планировщика и DiT как рендера делает релиз заметным.

Что умеет на практике

Помимо обычного text-to-music, ACE-Step 1.5 пытается стать универсальным инструментом для музыкальной работы, а не просто генератором одного трека по описанию. В проекте заложен тот же сценарий, которого ждут от профессионального софта: можно не только сделать песню с нуля, но и вмешаться в уже готовый материал, перестроить отдельный кусок, переаранжировать исходник или подогнать аккомпанемент под голос. Для open source системы это уже уровень не демо, а полноценной рабочей среды.

  • Cover generation — переаранжировка существующей композиции в другом стиле Repainting — перегенерация отдельных фрагментов без пересборки всего трека Vocal-to-BGM — создание аккомпанемента под готовый вокал LoRA fine-tuning — настройка под собственный стиль на небольшом наборе песен Поддержка 50+ языков и треков длиной от 10 секунд до 10 минут Еще один сильный аргумент — требования к железу. Базовый режим может работать локально с менее чем 4 ГБ VRAM, а для более тяжелых конфигураций доступны варианты с offload. Проект поддерживает не только NVIDIA, но и Mac на Apple Silicon, AMD и Intel, а локальный запуск сводится к готовым скриптам с Gradio-интерфейсом. Для музыкантов, продюсеров и разработчиков это выглядит как реальный шанс экспериментировать без облачной подписки и без отправки материалов во внешний сервис.

Где слабые места Разработчики не скрывают, что у модели есть заметные ограничения.

Главная проблема — нестабильность результатов. Один и тот же промт может выдать сильный трек на одном seed и слабый на другом, поэтому авторы прямо называют это gacha-style поведением. Отдельно перечислены грубоватый вокал без нужной нюансировки, слабая работа в некоторых жанрах вроде китайского рэпа, неестественные переходы при repainting и слишком грубый контроль музыкальных параметров.

То есть задать песню с точной аккордовой логикой и полностью предсказуемым результатом пока нельзя. Из-за этого важно не путать модель и сервис. Suno по-прежнему выигрывает у большинства пользователей по простоте: открыл сайт, написал пару строк, получил песню.

ACE-Step 1.5 требует установки, GPU, подбора промтов и терпения к вариативности. Но взамен дает приватность, локальный пайплайн, отсутствие обязательной подписки и возможность дообучения через LoRA.

Для массового пользователя это еще не замена Suno, а вот для тех, кому нужен контроль над процессом, расклад уже меняется.

Что это значит ACE-Step 1.5 показывает, что генерация музыки перестает

быть зоной только для закрытых платформ. Если open source модель уже сейчас обходит коммерческого игрока на части метрик и запускается на потребительском железе, дальше рынок будет двигаться в сторону локальных, настраиваемых и более дешевых музыкальных AI-инструментов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…