MarkTechPost→ original

Stability AI lanza Stable Audio 3 para generación rápida de música

Stability AI lanzó Stable Audio 3 — modelos abiertos para generación de música instrumental y efectos de sonido. Los modelos utilizan entrenamiento de tres etap

Stability AI lanza Stable Audio 3 para generación rápida de música
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Stability AI presentó Stable Audio 3 — una nueva familia de modelos para la generación de música instrumental y efectos de sonido. A diferencia de las versiones anteriores, los nuevos modelos son significativamente más rápidos y requieren menos recursos computacionales, haciendo que la tecnología de generación de sonido sea accesible para un amplio rango de usuarios. La empresa publicó los pesos abiertos de los modelos, permitiendo que los desarrolladores los utilicen libremente e integren en sus aplicaciones.

Calidad Accesible en Cualquier Hardware

El principal cambio en la tercera versión es la democratización del acceso a la generación de sonido. La empresa publicó pesos abiertos para dos variantes de modelos: pequeño y medio. La versión pequeña funciona en el procesador MacBook Pro M4 sin ninguna GPU adicional — es suficiente un portátil común que la mayoría de usuarios en todo el mundo ya poseen. Esto significa que incluso personas sin equipos caros pueden generar sonido y música en sus dispositivos.

La variante media requiere una tarjeta gráfica con 8GB de VRAM, que la gran mayoría de las GPU de consumidor lanzadas en los últimos 2-3 años poseen. Incluso los usuarios con tarjetas gráficas presupuestarias como la GTX 1660 o RTX 3060 pueden ejecutar el modelo localmente en su propio ordenador, sin dependencia de servicios en la nube y suscripciones mensuales.

Ambas variantes generan audio estéreo con una frecuencia de muestreo de 44.1 kHz, que es el estándar profesional para música y efectos de sonido. Esto significa que la calidad es lo suficientemente alta incluso para su uso en proyectos comerciales, incluyendo películas, videojuegos, podcasts y álbumes musicales.

Soluciones de Ingeniería para la Velocidad

Detrás de la compacidad y la velocidad había una arquitectura de entrenamiento no convencional. Stability AI abandonó el enfoque tradicional y utilizó un innovador proceso de tres etapas que permitió mejorar simultáneamente la calidad del sonido y reducir los requisitos computacionales:

  • Flow matching en la primera etapa para el entrenamiento básico del modelo en conjuntos masivos de datos de audio de varias fuentes
  • Distillation warmup — una tecnología de compresión de modelos que preserva la calidad a pesar de la reducción radical del tamaño del archivo
  • Adversarial post-training para la mejora final del realismo y la calidad del sonido hasta un nivel difícil de distinguir de la interpretación humana

Este enfoque de tres etapas logró un equilibrio raro entre calidad y velocidad. En el aprendizaje automático tradicional, estos dos requisitos a menudo se contradicen: la alta calidad requiere modelos grandes que funcionan lentamente, mientras que la velocidad requiere compresión que pierde calidad. Stability AI encontró el término medio.

Resultados Mejores que los Competidores

En el benchmark BBC Sound Effects, donde los modelos se prueban en clips de audio de 5 segundos, Stable Audio 3 medio recibió una puntuación FAD (Fréchet Audio Distance) de 0.369. Esto es más bajo que todos los otros modelos abiertos probados en la investigación de la empresa. La diferencia entre SA3 y el competidor más cercano es aproximadamente del 15-20%, lo que en el mundo de los modelos generativos se considera una mejora significativa.

Para referencia: una FAD más baja significa mejor calidad de sonido. El modelo genera audio que suena más natural y más cercano a los ejemplos reales en el conjunto de datos. En otras palabras, Stable Audio 3 superó todas las soluciones competitivas abiertas en el mercado, incluyendo las versiones anteriores de los propios modelos de la empresa.

Lo Que Esto Significa

La generación de sonido está pasando de un nicho experimental a una herramienta práctica para el trabajo. Los músicos independientes y creadores de video podrán generar música de fondo, efectos de sonido y la atmósfera necesaria directamente en su portátil, sin dependencia de servicios en la nube e internet. La generación local también significa mayor privacidad — ningún dato se envía a los servidores.

Para los estudios profesionales, esto también significa una reducción de costos en las licencias de música libre de regalías y bibliotecas de sonido. En lugar de comprar composiciones ya hechas, los desarrolladores y creadores de contenido podrán generar contenido de audio único literalmente en minutos, ahorrando tanto dinero como tiempo en la búsqueda de música adecuada para los proyectos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…