DeepMind Blog→ original

Gemini ahora crea música a partir de texto y fotos

Google añadió a la app Gemini una función de generación de música basada en el modelo Lyria 3, el desarrollo más avanzado de la compañía en este campo. Los…

Procesado por IA desde DeepMind Blog; editado por Hamidun News
Gemini ahora crea música a partir de texto y fotos
Fuente: DeepMind Blog. Collage: Hamidun News.
◐ Escuchar artículo

El límite entre texto y sonido se ha vuelto más delgado: Google ha integrado una herramienta de generación de música basada en el modelo Lyria 3 en la aplicación Gemini. Ahora cualquier usuario puede describir el sonido deseado con palabras o cargar una fotografía—y obtener una pista de 30 segundos lista para usar. Sin notación musical, sin conocimientos de estudio, sin equipamiento especial. Esto no es simplemente una nueva función en una larga lista de actualizaciones—es el intento de Google de redefinir quién tiene realmente el derecho de ser llamado autor de música.

Para entender la escala de este paso, es importante recordar el contexto. La generación de audio a partir de texto existe desde hace varios años: Suno, Udio, MusicGen de Meta—todos ofrecían capacidades similares de calidad variable. Pero la mayoría de estos servicios existían separados de los productos convencionales, requería registro en aplicaciones especializadas y se mantenía como un nicho de audiencias técnicamente preparadas. Google apuesta por algo diferente: Lyria 3 está integrada directamente en Gemini—una aplicación utilizada por cientos de millones de personas en todo el mundo. La barrera de entrada desaparece casi completamente.

Lyria 3 es el modelo musical más avanzado de Google hasta la fecha. La empresa lo desarrolló como parte de la dirección de investigación de DeepMind, y ahora el resultado de este trabajo pasa del laboratorio al bolsillo de un usuario común. La mecánica es simple: describes el estado de ánimo, género, instrumentos o atmósfera en texto—por ejemplo, "lo-fi relajante con piano y lluvia fuera de la ventana"—y el modelo genera una pista.

El camino alternativo es aún más interesante: puedes cargar una imagen, y Lyria 3 interpreta su contenido visual en una imagen musical. Un atardecer sobre el mar se convierte en una melodía, el ajetreo de la ciudad en algo completamente diferente. Es este enfoque multimodal lo que distingue la oferta de Google de la mayoría de los competidores.

Para la industria, esta es una señal con varios niveles de significado. El primero es obvio: las mayores compañías tecnológicas compiten seriamente por la audiencia creativa. OpenAI ya ha integrado generación de imágenes en ChatGPT, Meta desarrolla sus propias herramientas multimodales, Apple construye silenciosamente funciones de IA en su ecosistema.

Google con Lyria 3 en Gemini hace de la música el próximo campo de batalla. El segundo nivel es más complejo: la aparición de tales herramientas en un producto convencional inevitablemente plantea preguntas sobre derechos de autor y monetización. ¿En qué datos se entrenó Lyria 3?

¿Qué sucede con la pista que generaste—puedes publicarla, venderla, usarla en proyectos comerciales? Hasta ahora, Google no ha proporcionado respuestas oficiales exhaustivas, y esto permanece como una zona de incertidumbre que la industria observará cuidadosamente.

Para el usuario común, las consecuencias son mucho más directas. Un podcaster obtiene la capacidad de crear una introducción única en un minuto. Un creador de contenido de video obtiene música de fondo sin necesidad de buscar pistas con licencia Creative Commons. Una persona que ha tenido una melodía en su cabeza durante mucho tiempo puede finalmente materializarla sin conocer ni una sola nota. Es esta audiencia—no músicos profesionales, sino millones de personas con necesidades creativas y sin medios técnicos—la que es el verdadero objetivo de Google. Treinta segundos es ciertamente breve, pero es un formato perfectamente suficiente para jingles, introducciones, inserciones atmosféricas y experimentos.

Se debe mirar al futuro aquí sin euforia excesiva, pero tampoco sin escepticismo. La generación de música aún está lejos de amenazar a los compositores profesionales—así como las IA de texto no han desplazado a los periodistas. Pero está cambiando la economía de la creatividad: reduce el costo de producción de contenido, amplía el círculo de personas capaces de crear contenido y crea nuevos roles profesionales—aquellos que pueden formular solicitudes hábilmente y editar el resultado. Lyria 3 en Gemini no es el fin de la profesión musical, sino el comienzo de una conversación sobre lo que significa ser un autor en una era en la que la herramienta en sí sabe tocar.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…