ACE-Step 1.5 da ACE Studio supera o Suno v5 e roda geração de música localmente
ACE-Step 1.5, da ACE Studio e da StepFun, é um caso raro em que a geração musical open source alcança o AI comercial. O modelo roda localmente a partir de 4…
Processado por IA de Habr AI; editado por Hamidun News
ACE-Step 1.5 pretende ser o primeiro modelo open source realmente poderoso para geração de música que não apenas funciona localmente, mas também acompanha os serviços fechados em qualidade. Segundo os desenvolvedores e análise no Habr, o modelo supera Suno v5 no SongEval, funciona a partir de 4 GB de VRAM e gera uma faixa completa em segundos.
Por que isso importa
Até agora, o mercado de IA para música era dividido de forma bastante simples: se os usuários precisavam de resultados convenientes e de alta qualidade, iam para Suno, Udio ou outros serviços fechados. Alternativas open source existiam, mas geralmente perdiam em qualidade, velocidade ou requisitos de hardware. ACE-Step 1.
5 tenta quebrar esse esquema. O modelo foi lançado pela ACE Studio e StepFun, e junto com o lançamento, publicaram um artigo no arXiv — para geradores de música isso ainda é raro. Segundo a tabela oficial, ACE-Step 1.
5 marca 8.09 no SongEval, e a versão ACE-Step 1.5 XL marca 8.
12. Para comparação, Suno v5 na mesma tabela tem 7.87.
Ao mesmo tempo, o modelo mostra indicadores fortes em Lyric Alignment: 8.35 para a versão base e 8.42 para XL.
Na prática, isso significa não apenas uma classificação geral mais alta da faixa, mas também um melhor alinhamento de vocais com texto, o que continua sendo uma das tarefas mais difíceis para música generativa.
Como funciona o modelo A ideia-chave de ACE-Step é separar composição e síntese.
No primeiro estágio, funciona um Language Model que recebe o prompt do usuário e o transforma em um plano detalhado da música: gênero, andamento, estrutura de versos e refrões, instrumentos, letra e metadados. No artigo, esse módulo é descrito como uma espécie de composer agent. Ele não gera som diretamente, mas remove do módulo de áudio principal a tarefa de adivinhar o que o usuário realmente queria.
Quanto mais preciso o plano, menos caos no próximo estágio. No segundo estágio, entra em ação o Diffusion Transformer. A versão base usa DiT com aproximadamente 2 bilhões de parâmetros, XL — 4 bilhões.
Ele recebe o plano pronto e sintetiza áudio no espaço latente, e a aceleração é obtida através de destilação: em vez dos usuais 50–100 passos de difusão, o modelo se encaixa em 4–8 passos. Daí os números de velocidade: uma faixa completa em cerca de 2 segundos em A100 e menos de 10 segundos em RTX 3090. É precisamente a combinação de LM como planejador e DiT como renderizador que torna esse lançamento notável.
O que consegue fazer na prática
Além do regular text-to-music, ACE-Step 1.5 tenta se tornar uma ferramenta universal para trabalho musical, não apenas um gerador para uma única faixa baseada em descrição. O projeto incorpora o mesmo cenário esperado de software profissional: você não pode apenas criar uma música do zero, mas também intervir em material já existente, reconstruir uma seção separada, re-arrangear a fonte ou adaptar o acompanhamento à voz. Para um sistema open source, esse já é o nível de um ambiente de trabalho completo, não apenas uma demonstração.
- Geração de covers — re-arranjo de uma composição existente em um estilo diferente Repainting — regeneração de fragmentos separados sem reconstruir a faixa inteira Vocal-to-BGM — criação de acompanhamento para vocais prontos LoRA fine-tuning — ajuste ao seu próprio estilo em um pequeno conjunto de músicas Suporte para 50+ idiomas e faixas de 10 segundos a 10 minutos Outro argumento forte é os requisitos de hardware. O modo base pode funcionar localmente com menos de 4 GB de VRAM, e para configurações mais pesadas, opções de offload estão disponíveis. O projeto suporta não apenas NVIDIA, mas também Mac no Apple Silicon, AMD e Intel, e o lançamento local se resume a scripts prontos com interface Gradio. Para músicos, produtores e desenvolvedores, isso parece uma oportunidade real de experimentar sem uma assinatura em nuvem e sem enviar materiais para um serviço externo.
Onde estão os pontos fracos
Os desenvolvedores não ocultam o fato de que o modelo tem limitações notáveis. O principal problema é instabilidade dos resultados. O mesmo prompt pode produzir uma faixa forte em uma seed e fraca em outra, então os autores chamam diretamente esse comportamento de gacha-style.
Também listados são vocais ásperos sem a devida nuance, desempenho fraco em alguns gêneros como rap chinês, transições não naturais ao fazer repainting e controle excessivamente grosseiro de parâmetros musicais. Em outras palavras, ainda não é possível definir uma música com lógica harmônica precisa e resultados totalmente previsíveis. Por causa disso, é importante não confundir o modelo e o serviço.
Suno ainda vence com a maioria dos usuários em simplicidade: abriu o site, escreveu um par de linhas, conseguiu uma música. ACE-Step 1.5 requer instalação, GPU, ajuste de prompts e tolerância à variabilidade.
Mas em troca oferece privacidade, um pipeline local, sem assinatura obrigatória e a capacidade de fine-tunar através de LoRA. Para um usuário em massa, isso ainda não é uma substituição para Suno, mas para quem precisa de controle sobre o processo, a situação já está mudando.
O que isso significa ACE-Step 1.5 mostra que a geração de música está
deixando de ser uma zona apenas para plataformas fechadas. Se um modelo open source já supera um player comercial em algumas métricas e funciona em hardware de consumidor, o mercado se moverá em direção a ferramentas de IA para música locais, customizáveis e mais baratas.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.