MarkTechPost→ original

Stability AI lança Stable Audio 3 para geração rápida de música

Stability AI lançou Stable Audio 3 — modelos abertos para geração de música instrumental e efeitos sonoros. Os modelos utilizam treinamento em três etapas com f

Stability AI lança Stable Audio 3 para geração rápida de música
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A Stability AI apresentou o Stable Audio 3 — uma nova família de modelos para geração de música instrumental e efeitos sonoros. Diferentemente das versões anteriores, os novos modelos são significativamente mais rápidos e exigem menos recursos computacionais, tornando a tecnologia de geração de som acessível para um amplo público de usuários. A empresa lançou os pesos dos modelos abertos, permitindo que desenvolvedores os utilizem livremente e integrem em suas aplicações.

Qualidade Acessível em Qualquer Hardware

A principal mudança na terceira versão é a democratização do acesso à geração de som. A empresa lançou pesos abertos para duas variantes de modelos: pequena e média. A versão pequena roda no processador MacBook Pro M4 sem nenhuma GPU adicional — é suficiente um laptop comum que a maioria dos usuários em todo o mundo já possui. Isso significa que até pessoas sem equipamentos caros conseguem gerar som e música em seus dispositivos.

A variante média exige uma placa gráfica com 8GB de VRAM, o que a grande maioria das GPUs de consumidor lançadas nos últimos 2-3 anos possui. Até usuários com placas gráficas orçamentárias como GTX 1660 ou RTX 3060 conseguem executar o modelo localmente em seu próprio computador, sem depender de serviços na nuvem e assinaturas mensais.

Ambas as variantes geram áudio estéreo com taxa de amostragem de 44.1 kHz, que é o padrão profissional para música e efeitos sonoros. Isso significa que a qualidade é suficientemente alta até mesmo para uso em projetos comerciais, incluindo filmes, jogos, podcasts e álbuns musicais.

Soluções de Engenharia para Velocidade

Por trás da compacidade e velocidade havia uma arquitetura de treinamento não convencional. A Stability AI abandonou a abordagem tradicional e utilizou um processo inovador em três estágios que permitiu melhorar simultaneamente a qualidade do som e reduzir os requisitos computacionais:

  • Flow matching no primeiro estágio para treinamento básico do modelo em conjuntos massivos de dados de áudio de várias fontes
  • Distillation warmup — uma tecnologia de compressão de modelos que preserva a qualidade apesar da redução radical no tamanho do arquivo
  • Adversarial post-training para melhoria final do realismo e qualidade do som até um nível difícil de distinguir da performance humana

Esta abordagem em três estágios alcançou um equilíbrio raro entre qualidade e velocidade. No aprendizado de máquina tradicional, esses dois requisitos frequentemente se contradizem: alta qualidade exige modelos grandes que funcionam lentamente, enquanto velocidade exige compressão que perde qualidade. A Stability AI encontrou o meio termo.

Resultados Melhores que Concorrentes

No benchmark BBC Sound Effects, onde modelos são testados em clipes de áudio de 5 segundos, o Stable Audio 3 média recebeu uma pontuação FAD (Fréchet Audio Distance) de 0.369. Isso é mais baixo do que todos os outros modelos abertos testados na pesquisa da empresa. A diferença entre SA3 e o concorrente mais próximo é aproximadamente 15-20%, o que no mundo dos modelos generativos é considerado uma melhoria significativa.

Para referência: um FAD mais baixo significa melhor qualidade de som. O modelo gera áudio que soa mais natural e mais próximo dos exemplos reais no conjunto de dados. Em outras palavras, o Stable Audio 3 superou todas as soluções competitivas abertas no mercado, incluindo as versões anteriores dos próprios modelos da empresa.

O Que Isso Significa

A geração de som está passando de um nicho experimental para uma ferramenta prática de trabalho. Músicos independentes e criadores de vídeo poderão gerar música de fundo, efeitos sonoros e a atmosfera necessária diretamente em seu laptop, sem dependência de serviços na nuvem e da internet. A geração local também significa maior privacidade — nenhum dado é enviado para servidores.

Para estúdios profissionais, isso também significa redução de custos no licenciamento de música royalty-free e bibliotecas de sons. Em vez de comprar composições prontas, desenvolvedores e criadores de conteúdo poderão gerar conteúdo de áudio único literalmente em minutos, economizando tanto dinheiro quanto tempo na busca por música apropriada para os projetos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…