Stability AI lança Stable Audio 3 para geração rápida de música
Stability AI lançou Stable Audio 3 — modelos abertos para geração de música instrumental e efeitos sonoros. Os modelos utilizam treinamento em três etapas com f

A Stability AI apresentou o Stable Audio 3 — uma nova família de modelos para geração de música instrumental e efeitos sonoros. Diferentemente das versões anteriores, os novos modelos são significativamente mais rápidos e exigem menos recursos computacionais, tornando a tecnologia de geração de som acessível para um amplo público de usuários. A empresa lançou os pesos dos modelos abertos, permitindo que desenvolvedores os utilizem livremente e integrem em suas aplicações.
Qualidade Acessível em Qualquer Hardware
A principal mudança na terceira versão é a democratização do acesso à geração de som. A empresa lançou pesos abertos para duas variantes de modelos: pequena e média. A versão pequena roda no processador MacBook Pro M4 sem nenhuma GPU adicional — é suficiente um laptop comum que a maioria dos usuários em todo o mundo já possui. Isso significa que até pessoas sem equipamentos caros conseguem gerar som e música em seus dispositivos.
A variante média exige uma placa gráfica com 8GB de VRAM, o que a grande maioria das GPUs de consumidor lançadas nos últimos 2-3 anos possui. Até usuários com placas gráficas orçamentárias como GTX 1660 ou RTX 3060 conseguem executar o modelo localmente em seu próprio computador, sem depender de serviços na nuvem e assinaturas mensais.
Ambas as variantes geram áudio estéreo com taxa de amostragem de 44.1 kHz, que é o padrão profissional para música e efeitos sonoros. Isso significa que a qualidade é suficientemente alta até mesmo para uso em projetos comerciais, incluindo filmes, jogos, podcasts e álbuns musicais.
Soluções de Engenharia para Velocidade
Por trás da compacidade e velocidade havia uma arquitetura de treinamento não convencional. A Stability AI abandonou a abordagem tradicional e utilizou um processo inovador em três estágios que permitiu melhorar simultaneamente a qualidade do som e reduzir os requisitos computacionais:
- Flow matching no primeiro estágio para treinamento básico do modelo em conjuntos massivos de dados de áudio de várias fontes
- Distillation warmup — uma tecnologia de compressão de modelos que preserva a qualidade apesar da redução radical no tamanho do arquivo
- Adversarial post-training para melhoria final do realismo e qualidade do som até um nível difícil de distinguir da performance humana
Esta abordagem em três estágios alcançou um equilíbrio raro entre qualidade e velocidade. No aprendizado de máquina tradicional, esses dois requisitos frequentemente se contradizem: alta qualidade exige modelos grandes que funcionam lentamente, enquanto velocidade exige compressão que perde qualidade. A Stability AI encontrou o meio termo.
Resultados Melhores que Concorrentes
No benchmark BBC Sound Effects, onde modelos são testados em clipes de áudio de 5 segundos, o Stable Audio 3 média recebeu uma pontuação FAD (Fréchet Audio Distance) de 0.369. Isso é mais baixo do que todos os outros modelos abertos testados na pesquisa da empresa. A diferença entre SA3 e o concorrente mais próximo é aproximadamente 15-20%, o que no mundo dos modelos generativos é considerado uma melhoria significativa.
Para referência: um FAD mais baixo significa melhor qualidade de som. O modelo gera áudio que soa mais natural e mais próximo dos exemplos reais no conjunto de dados. Em outras palavras, o Stable Audio 3 superou todas as soluções competitivas abertas no mercado, incluindo as versões anteriores dos próprios modelos da empresa.
O Que Isso Significa
A geração de som está passando de um nicho experimental para uma ferramenta prática de trabalho. Músicos independentes e criadores de vídeo poderão gerar música de fundo, efeitos sonoros e a atmosfera necessária diretamente em seu laptop, sem dependência de serviços na nuvem e da internet. A geração local também significa maior privacidade — nenhum dado é enviado para servidores.
Para estúdios profissionais, isso também significa redução de custos no licenciamento de música royalty-free e bibliotecas de sons. Em vez de comprar composições prontas, desenvolvedores e criadores de conteúdo poderão gerar conteúdo de áudio único literalmente em minutos, economizando tanto dinheiro quanto tempo na busca por música apropriada para os projetos.