ACE-Step 1.5 de ACE Studio supera a Suno v5 y ejecuta la generación de música localmente
ACE-Step 1.5 de ACE Studio y StepFun es un caso raro en el que la generación musical open source alcanza al AI comercial. El modelo se ejecuta localmente…
Procesado por IA desde Habr AI; editado por Hamidun News
ACE-Step 1.5 pretende ser el primer modelo open source verdaderamente potente para generación de música que no solo funciona localmente, sino que también alcanza a los servicios cerrados en calidad. Según los desarrolladores y análisis en Habr, el modelo supera a Suno v5 en SongEval, funciona desde 4 GB de VRAM y genera una pista completa en segundos.
Por qué es importante
Hasta ahora, el mercado de IA para música estaba dividido de manera bastante simple: si los usuarios necesitaban resultados convenientes y de alta calidad, iban a Suno, Udio u otros servicios cerrados. Existían alternativas open source, pero generalmente perdían en calidad, velocidad o requisitos de hardware. ACE-Step 1.
5 intenta romper este esquema. El modelo fue lanzado por ACE Studio y StepFun, y junto con el lanzamiento, publicaron un documento en arXiv — para generadores de música esto sigue siendo raro. Según la tabla oficial, ACE-Step 1.
5 obtiene 8.09 en SongEval, y la versión ACE-Step 1.5 XL obtiene 8.
12. Para comparar, Suno v5 en la misma tabla tiene 7.87.
Al mismo tiempo, el modelo muestra fuertes indicadores en Lyric Alignment: 8.35 para la versión base y 8.42 para XL.
En la práctica, esto significa no solo una calificación general más alta de la pista, sino también un mejor alineamiento de la voz con el texto, lo que sigue siendo una de las tareas más difíciles para la música generativa.
Cómo funciona el modelo La idea clave de ACE-Step es separar la composición y la síntesis.
En la primera etapa, funciona un Language Model que recibe el prompt del usuario y lo convierte en un plan detallado de la canción: género, tempo, estructura de estrofas y coros, instrumentos, letra y metadatos. En el documento, este módulo se describe como una especie de composer agent. No genera sonido directamente, sino que elimina del módulo de audio principal la tarea de adivinar qué es lo que realmente quería el usuario.
Cuanto más preciso sea el plan, menos caos en la siguiente etapa. En la segunda etapa, entra en juego el Diffusion Transformer. La versión base utiliza DiT con aproximadamente 2 mil millones de parámetros, XL — 4 mil millones.
Recibe el plan ya listo y sintetiza audio en el espacio latente, y la aceleración se logra mediante destilación: en lugar de los usuales 50–100 pasos de difusión, el modelo se ajusta a 4–8 pasos. De ahí los números de velocidad: una pista completa en aproximadamente 2 segundos en A100 y menos de 10 segundos en RTX 3090. Es precisamente la combinación de LM como planificador y DiT como renderizador lo que hace que este lanzamiento sea destacable.
Qué puede hacer en la práctica
Además del usual text-to-music, ACE-Step 1.5 intenta convertirse en una herramienta universal para trabajo musical, no solo un generador para una sola pista basada en descripción. El proyecto incorpora el mismo escenario esperado del software profesional: no solo puedes crear una canción desde cero, sino también intervenir en material ya existente, reconstruir una sección separada, rearranger la fuente o adaptar el acompañamiento a la voz. Para un sistema open source, esto ya es el nivel de un entorno de trabajo completo, no solo una demostración.
- Generación de covers — rearranger de una composición existente en un estilo diferente Repainting — regeneración de fragmentos separados sin reconstruir toda la pista Vocal-to-BGM — creación de acompañamiento para voces listas LoRA fine-tuning — ajuste a tu propio estilo en un pequeño conjunto de canciones Soporte para 50+ idiomas y pistas de 10 segundos a 10 minutos Otro argumento fuerte es los requisitos de hardware. El modo base puede funcionar localmente con menos de 4 GB de VRAM, y para configuraciones más pesadas, hay opciones de offload disponibles. El proyecto soporta no solo NVIDIA, sino también Mac en Apple Silicon, AMD e Intel, y el lanzamiento local se reduce a scripts listos con interfaz Gradio. Para músicos, productores y desarrolladores, esto parece una oportunidad real para experimentar sin una suscripción en la nube y sin enviar materiales a un servicio externo.
Dónde están los puntos débiles
Los desarrolladores no ocultan el hecho de que el modelo tiene limitaciones notables. El principal problema es la inestabilidad de resultados. El mismo prompt puede producir una pista fuerte en una seed y débil en otra, así que los autores directamente llaman a esto comportamiento gacha-style.
También se enumeran voces ásperas sin los matices necesarios, desempeño débil en algunos géneros como rap chino, transiciones no naturales al hacer repainting y control demasiado grosero de parámetros musicales. En otras palabras, aún no es posible establecer una canción con lógica armónica precisa y resultados completamente predecibles. Por esto, es importante no confundir el modelo y el servicio.
Suno sigue ganando con la mayoría de los usuarios en simplicidad: abriste el sitio, escribiste un par de líneas, obtuviste una canción. ACE-Step 1.5 requiere instalación, GPU, ajuste de prompts y tolerancia a la variabilidad.
Pero a cambio proporciona privacidad, un pipeline local, sin suscripción obligatoria y la capacidad de fine-tuning a través de LoRA. Para un usuario masivo, esto aún no es un reemplazo para Suno, pero para quienes necesitan control sobre el proceso, la situación ya está cambiando.
Qué significa esto ACE-Step 1.5 muestra que la generación de música
está dejando de ser una zona solo para plataformas cerradas. Si un modelo open source ya supera a un jugador comercial en algunas métricas y funciona en hardware de consumidor, el mercado se moverá hacia herramientas de IA para música locales, personalizables y más baratas.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.