ACE-Step 1.5 da ACE Studio supera o Suno v5 e roda geração de música localmente

Q: Qual é a fonte?

Publicado originalmente em Habr AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2 de mai. de 2026. Tempo de leitura: 4 min.

ACE-Step 1.5, da ACE Studio e da StepFun, é um caso raro em que a geração musical open source alcança o AI comercial. O modelo roda localmente a partir de 4…

Redação da Hamidun News

Monitoramento de AI · Habr AI

2 de mai. de 2026· 3 min

Processado por IA de Habr AI; editado por Hamidun News

ACE-Step 1.5 da ACE Studio supera o Suno v5 e roda geração de música localmente — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

ACE-Step 1.5 pretende ser o primeiro modelo open source realmente poderoso para geração de música que não apenas funciona localmente, mas também acompanha os serviços fechados em qualidade. Segundo os desenvolvedores e análise no Habr, o modelo supera Suno v5 no SongEval, funciona a partir de 4 GB de VRAM e gera uma faixa completa em segundos.

Por que isso importa

Até agora, o mercado de IA para música era dividido de forma bastante simples: se os usuários precisavam de resultados convenientes e de alta qualidade, iam para Suno, Udio ou outros serviços fechados. Alternativas open source existiam, mas geralmente perdiam em qualidade, velocidade ou requisitos de hardware. ACE-Step 1.

5 tenta quebrar esse esquema. O modelo foi lançado pela ACE Studio e StepFun, e junto com o lançamento, publicaram um artigo no arXiv — para geradores de música isso ainda é raro. Segundo a tabela oficial, ACE-Step 1.

5 marca 8.09 no SongEval, e a versão ACE-Step 1.5 XL marca 8.

12. Para comparação, Suno v5 na mesma tabela tem 7.87.

Ao mesmo tempo, o modelo mostra indicadores fortes em Lyric Alignment: 8.35 para a versão base e 8.42 para XL.

Na prática, isso significa não apenas uma classificação geral mais alta da faixa, mas também um melhor alinhamento de vocais com texto, o que continua sendo uma das tarefas mais difíceis para música generativa.

Como funciona o modelo A ideia-chave de ACE-Step é separar composição e síntese.

No primeiro estágio, funciona um Language Model que recebe o prompt do usuário e o transforma em um plano detalhado da música: gênero, andamento, estrutura de versos e refrões, instrumentos, letra e metadados. No artigo, esse módulo é descrito como uma espécie de composer agent. Ele não gera som diretamente, mas remove do módulo de áudio principal a tarefa de adivinhar o que o usuário realmente queria.

Quanto mais preciso o plano, menos caos no próximo estágio. No segundo estágio, entra em ação o Diffusion Transformer. A versão base usa DiT com aproximadamente 2 bilhões de parâmetros, XL — 4 bilhões.

Ele recebe o plano pronto e sintetiza áudio no espaço latente, e a aceleração é obtida através de destilação: em vez dos usuais 50–100 passos de difusão, o modelo se encaixa em 4–8 passos. Daí os números de velocidade: uma faixa completa em cerca de 2 segundos em A100 e menos de 10 segundos em RTX 3090. É precisamente a combinação de LM como planejador e DiT como renderizador que torna esse lançamento notável.

O que consegue fazer na prática

Além do regular text-to-music, ACE-Step 1.5 tenta se tornar uma ferramenta universal para trabalho musical, não apenas um gerador para uma única faixa baseada em descrição. O projeto incorpora o mesmo cenário esperado de software profissional: você não pode apenas criar uma música do zero, mas também intervir em material já existente, reconstruir uma seção separada, re-arrangear a fonte ou adaptar o acompanhamento à voz. Para um sistema open source, esse já é o nível de um ambiente de trabalho completo, não apenas uma demonstração.

Geração de covers — re-arranjo de uma composição existente em um estilo diferente Repainting — regeneração de fragmentos separados sem reconstruir a faixa inteira Vocal-to-BGM — criação de acompanhamento para vocais prontos LoRA fine-tuning — ajuste ao seu próprio estilo em um pequeno conjunto de músicas Suporte para 50+ idiomas e faixas de 10 segundos a 10 minutos Outro argumento forte é os requisitos de hardware. O modo base pode funcionar localmente com menos de 4 GB de VRAM, e para configurações mais pesadas, opções de offload estão disponíveis. O projeto suporta não apenas NVIDIA, mas também Mac no Apple Silicon, AMD e Intel, e o lançamento local se resume a scripts prontos com interface Gradio. Para músicos, produtores e desenvolvedores, isso parece uma oportunidade real de experimentar sem uma assinatura em nuvem e sem enviar materiais para um serviço externo.

Onde estão os pontos fracos

Os desenvolvedores não ocultam o fato de que o modelo tem limitações notáveis. O principal problema é instabilidade dos resultados. O mesmo prompt pode produzir uma faixa forte em uma seed e fraca em outra, então os autores chamam diretamente esse comportamento de gacha-style.

Também listados são vocais ásperos sem a devida nuance, desempenho fraco em alguns gêneros como rap chinês, transições não naturais ao fazer repainting e controle excessivamente grosseiro de parâmetros musicais. Em outras palavras, ainda não é possível definir uma música com lógica harmônica precisa e resultados totalmente previsíveis. Por causa disso, é importante não confundir o modelo e o serviço.

Suno ainda vence com a maioria dos usuários em simplicidade: abriu o site, escreveu um par de linhas, conseguiu uma música. ACE-Step 1.5 requer instalação, GPU, ajuste de prompts e tolerância à variabilidade.

Mas em troca oferece privacidade, um pipeline local, sem assinatura obrigatória e a capacidade de fine-tunar através de LoRA. Para um usuário em massa, isso ainda não é uma substituição para Suno, mas para quem precisa de controle sobre o processo, a situação já está mudando.

O que isso significa ACE-Step 1.5 mostra que a geração de música está

deixando de ser uma zona apenas para plataformas fechadas. Se um modelo open source já supera um player comercial em algumas métricas e funciona em hardware de consumidor, o mercado se moverá em direção a ferramentas de IA para música locais, customizáveis e mais baratas.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis