Habr AI→ original

Recherche musicale NEWAVE : pourquoi vos playlists ne seront plus jamais les mêmes

La recherche musicale sur les services de streaming ressemble depuis longtemps au travail dans le département d'archives d'une bibliothèque : si vous ne…

Traité par IA depuis Habr AI ; édité par Hamidun News
Recherche musicale NEWAVE : pourquoi vos playlists ne seront plus jamais les mêmes
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

La recherche musicale sur les services de streaming ressemble depuis longtemps au travail dans le département d'archives d'une bibliothèque : si vous ne connaissez pas le titre exact ou au moins le genre, vos chances de trouver « celui-ci » tendent vers zéro. Pendant des années, nous nous sommes habitués à des filtres rigides, des étiquettes et des catégories inventées par des spécialistes du marketing plutôt que par les auditeurs. Mais l'équipe de NEWAVE a décidé qu'il était temps de mettre fin à cette approche bureaucratique de l'art et d'enseigner aux machines à comprendre la musique comme nous la comprenons—à travers des images, des émotions et du contexte.

Au lieu de forcer les utilisateurs à cliquer sur des boutons libellés « rock » ou « années 2010 », les développeurs ont créé un système de récupération intelligent qui entend littéralement ce que vous tapez dans la barre de recherche.

Le projet repose sur un concept assez élégant, mais techniquement complexe de réseaux de neurones à double encodeur. Si nous n'approfondissons pas le code, imaginez deux traducteurs. L'un écoute une piste audio et la traduit en un ensemble de coordonnées mathématiques, tandis que l'autre fait la même chose avec votre requête textuelle.

La tâche d'entraînement dans ce cas est de s'assurer que « violon triste » dans le texte et un enregistrement audio réel avec violon se retrouvent au même point de cet espace mathématique. Pour y parvenir, NEWAVE a employé l'apprentissage contrastif : le modèle a été forcé non seulement à reconnaître des objets similaires, mais aussi à repousser activement les dissemblables. Cela a permis au système de saisir les nuances les plus subtiles qui sont généralement perdues lors d'une simple annotation par étiquettes.

Le problème avec la plupart des solutions existantes est leur limitation : elles comprennent bien le texte mais mal le son, ou inversement. Pour éviter ce piège, les développeurs ont utilisé dix ensembles de données différents à la fois. Ce n'est pas simplement une question de volume de données ; c'est une question de diversité. Un ensemble de données peut être riche en descriptions techniques de tempo et d'instruments, un autre en critiques émotionnelles d'auditeurs. En les combinant, NEWAVE a appris à son système à comprendre que « musique pour une balade en ville de nuit » n'est pas simplement un BPM déterminé, mais une combinaison spécifique de synthétiseurs, de réverbération et de motif rythmique.

L'utilisation du mécanisme de fusion tardive mérite une attention particulière. Dans le monde du ML, c'est souvent le facteur décisif entre « ça marche simplement » et « ça marche parfaitement ». Au lieu de mélanger toutes les caractéristiques en un tas dès le départ, le système analyse les données sur différents canaux et combine leurs résultats à l'étape finale de la prise de décision. Cela préserve la pureté des caractéristiques de chaque domaine—texte et son—et livre le résultat le plus pertinent. En résultat, nous obtenons une recherche qui comprend la requête « quelque chose dans le style du Radiohead précoce, mais avec une basse plus agressive » sans avoir besoin d'une annotation manuelle de millions de pistes.

Pourquoi l'industrie a-t-elle besoin de tout cela ? La réponse se trouve à la surface : le modèle de recommandation actuel chez les grands services commence à s'épuiser. Les algorithmes s'enlisent souvent dans des boucles d'artistes similaires, créant des chambres d'échos d'où il est difficile pour les auditeurs de s'échapper.

La récupération intelligente de NEWAVE ouvre des portes à ce qu'on appelle la « recherche zéro », quand vous n'avez pas besoin de connaître le nom d'un artiste pour trouver votre nouvelle chanson préférée. Cela change les règles du jeu non seulement pour les auditeurs, mais aussi pour les musiciens indépendants dont la créativité peut maintenant être découverte par la description de l'atmosphère, plutôt que seulement grâce aux budgets marketing de plusieurs millions et à l'inclusion dans les playlists officielles.

Bien sûr, nous sommes toujours au début du chemin, où l'IA tente d'interpréter les sentiments humains à travers des vecteurs et des matrices. Mais le progrès de NEWAVE montre que la ligne entre la description technique d'un fichier et son contenu émotionnel devient de plus en plus floue. Si auparavant nous nous adaptions aux interfaces des moteurs de recherche, maintenant les machines commencent enfin à s'adapter à notre langage. Et c'est peut-être l'évolution la plus logique de la technologie à une époque où il y a trop de contenu et trop peu de temps pour le trier manuellement.

L'essentiel : NEWAVE a prouvé que la recherche musicale peut être humaine. Cela signifie-t-il la fin de l'ère des playlists curées, ou l'IA deviendra-t-elle simplement leur assistante parfaite ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…