MarkTechPost→ оригинал

Stability AI выпустила Stable Audio 3 для быстрой генерации музыки

Stability AI выпустила Stable Audio 3 — открытые модели для генерации инструментальной музыки и звуковых эффектов. Модели используют трёхэтапное обучение с flow

Stability AI выпустила Stable Audio 3 для быстрой генерации музыки
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

Stability AI представила Stable Audio 3 — новую семью моделей для генерации инструментальной музыки и звуковых эффектов. В отличие от предыдущих версий, новые модели значительно быстрее и требуют меньше вычислительных ресурсов, что делает технологию генерации звука доступной для широкого круга пользователей. Компания опубликовала открытые веса моделей, позволяя разработчикам использовать их свободно и интегрировать в свои приложения.

Качество, доступное на любом железе

Главное изменение в третьей версии — это демократизация доступа к генерации звука. Компания выпустила открытые веса для двух вариантов моделей: small и medium. Small-версия работает на процессоре MacBook Pro M4 без какого-либо дополнительного GPU — достаточно обычного ноутбука, который есть у большинства пользователей по всему миру.

Это означает, что даже люди без дорогого оборудования смогут генерировать звук и музыку на своих устройствах. Medium-вариант требует видеокарту с 8GB VRAM, что есть у подавляющего большинства потребительских GPU, выпущенных за последние 2-3 года. Даже пользователи с бюджетными видеокартами типа GTX 1660 или RTX 3060 смогут запустить модель локально, на своём компьютере, без зависимости от облачных сервисов и ежемесячных подписок.

Оба варианта генерируют стерео аудио с частотой дискретизации 44.1 kHz, что является профессиональным стандартом для музыки и звуковых эффектов. Это означает, что качество достаточно высоко даже для использования в коммерческих проектах, включая фильмы, игры, подкасты и музыкальные альбомы.

Инженерные решения за скоростью

За компактностью и скоростью стояла нестандартная архитектура обучения. Stability AI отказалась от традиционного подхода и использовала инновационный трёхэтапный процесс, который позволил одновременно улучшить качество звука и снизить требования к вычислениям: Flow matching на первом этапе для базового обучения модели на огромных наборах аудиоданных из различных источников Distillation warmup — технология сжатия моделей, которая сохраняет качество несмотря на радикальное уменьшение размера файла * Adversarial post-training для финального улучшения реалистичности и качества звука до уровня, который сложно отличить от человеческого исполнения Такой трёхэтапный подход позволил достичь редкого баланса между качеством и скоростью. В традиционном машинном обучении эти два требования часто противоречат друг другу: для высокого качества нужны большие модели, которые работают медленно, а для скорости нужна компрессия, которая теряет качество.

Stability AI нашла середину.

Результаты лучше конкурентов

На бенчмарке BBC Sound Effects, где модели тестируют на 5-секундных аудиоклипах, Stable Audio 3 medium получила оценку FAD (Fréchet Audio Distance) 0.369. Это ниже, чем у всех других открыто доступных моделей, которые были протестированы в исследовании компании. Разница между SA3 и ближайшим конкурентом составляет примерно 15-20%, что в мире генеративных моделей считается значительным улучшением. Для справки: более низкий FAD означает лучшее качество звука. Модель генерирует аудио, которое звучит более естественно и приближено к реальным примерам в наборе данных. Другими словами, Stable Audio 3 превзошла все открытые конкурентные решения на рынке, включая предыдущие версии собственных моделей компании.

Что это значит

Генерация звука переходит из экспериментальной ниши в практический инструмент для работы. Независимые музыканты и создатели видеоконтента смогут генерировать фоновую музыку, звуковые эффекты и нужную атмосферу прямо на своём ноутбуке, без зависимости от облачных сервисов и интернета. Локальная генерация также означает большую приватность — никакие данные не отправляются на серверы. Для профессиональных студий это также означает снижение расходов на лицензирование royalty-free музыки и звуковых библиотек. Вместо покупки готовых композиций разработчики и создатели контента смогут генерировать уникальный аудиоконтент буквально за минуты, экономя как деньги, так и время на поиск подходящей музыки для проектов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…