Habr AI→ original

Búsqueda musical NEWAVE: por qué tus playlists nunca volverán a ser igual

La búsqueda de música en servicios de streaming ha sido durante mucho tiempo como trabajar en el departamento de archivo de una biblioteca: si no conoces el…

Procesado por IA desde Habr AI; editado por Hamidun News
Búsqueda musical NEWAVE: por qué tus playlists nunca volverán a ser igual
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

La búsqueda de música en servicios de streaming ha sido durante mucho tiempo como trabajar en el departamento de archivo de una biblioteca: si no conoces el título exacto o al menos el género, tus posibilidades de encontrar "ese exacto" se acercan a cero. Durante años nos hemos acostumbrado a filtros rígidos, etiquetas y categorías inventadas por especialistas en marketing, no por oyentes. Pero el equipo de NEWAVE decidió que era hora de acabar con este enfoque burocrático del arte y enseñar a las máquinas a entender la música como la entendemos nosotros—a través de imágenes, emociones y contexto.

En lugar de obligar a los usuarios a hacer clic en botones etiquetados como "rock" o "años 2010", los desarrolladores crearon un sistema de recuperación inteligente que literalmente escucha lo que escribes en la barra de búsqueda.

El proyecto se construye sobre un concepto bastante elegante, pero técnicamente complejo de redes neuronales de doble codificador. Si no nos sumergimos en las profundidades del código, imagina dos traductores. Uno escucha una pista de audio y la traduce en un conjunto de coordenadas matemáticas, mientras que el otro hace lo mismo con tu consulta de texto.

La tarea de entrenamiento en este caso es asegurar que "violín triste" en el texto y una grabación de audio real con violín terminen en el mismo punto de este espacio matemático. Para lograr esto, NEWAVE empleó aprendizaje contrastivo: el modelo fue obligado no solo a reconocer objetos similares, sino a repeler activamente los disimilares. Esto permitió al sistema captar los matices más sutiles que normalmente se pierden con simples anotaciones de etiquetas.

El problema con la mayoría de las soluciones existentes es su limitación: entienden bien el texto pero comprenden mal el sonido, o viceversa. Para evitar esta trampa, los desarrolladores utilizaron diez conjuntos de datos diferentes a la vez. No es simplemente cuestión de volumen de datos; se trata de diversidad. Un conjunto de datos puede ser rico en descripciones técnicas de tempo e instrumentos, otro en críticas emocionales de oyentes. Al combinarlos, NEWAVE enseñó a su sistema a entender que "música para un paseo por la ciudad nocturna" no es solo un BPM determinado, sino una combinación específica de sintetizadores, reverberación y patrón rítmico.

El uso del mecanismo de fusión tardía merece especial atención. En el mundo del ML, a menudo se convierte en el factor decisivo entre "simplemente funciona" y "funciona perfectamente". En lugar de mezclar todas las características en un montón desde el principio, el sistema analiza datos en diferentes canales y combina sus resultados en la etapa final de toma de decisiones. Esto preserva la pureza de las características de cada dominio—tanto texto como sonido—y entrega el resultado más relevante. Como resultado, obtenemos una búsqueda que entiende la consulta "algo en el estilo del Radiohead temprano, pero con un bajo más agresivo" sin necesidad de anotación manual de millones de pistas.

¿Por qué la industria necesita todo esto? La respuesta está en la superficie: el modelo de recomendaciones actual en los grandes servicios comienza a quemarse. Los algoritmos a menudo se quedan atrapados en bucles de artistas similares, creando cámaras de eco de las que es difícil que los oyentes escapen.

La recuperación inteligente de NEWAVE abre puertas a lo que se llama "búsqueda cero", cuando no necesitas saber el nombre de un artista para encontrar tu nueva canción favorita. Esto cambia las reglas del juego no solo para los oyentes, sino para los músicos independientes cuya creatividad ahora puede ser encontrada por descripción de atmósfera, en lugar de ser solo accesible a través de presupuestos de marketing multimillonarios y colocación en playlists oficiales.

Por supuesto, todavía estamos al principio del camino, donde la IA intenta interpretar los sentimientos humanos a través de vectores y matrices. Pero el progreso de NEWAVE muestra que la línea entre la descripción técnica de un archivo y su contenido emocional se está haciendo cada vez más borrosa. Si antes nos adaptábamos a las interfaces de los motores de búsqueda, ahora las máquinas finalmente están comenzando a adaptarse a nuestro idioma. Y esto es quizás el desarrollo más lógico de la tecnología en una era en la que hay demasiado contenido y muy poco tiempo para clasificarlo manualmente.

Lo principal: NEWAVE ha demostrado que la búsqueda musical puede ser humana. ¿Significa esto el fin de la era de las playlists curadas, o la IA simplemente se convertirá en su asistente perfecto?

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…