Gemini peut désormais créer de la musique à partir de texte et de photos
Google a ajouté à l'application Gemini une fonction de génération de musique basée sur le modèle Lyria 3, le développement le plus avancé de l'entreprise…
Traité par IA depuis DeepMind Blog ; édité par Hamidun News
La frontière entre le texte et le son est devenue plus fine : Google a intégré un outil de génération musicale basé sur le modèle Lyria 3 dans l'application Gemini. Désormais, tout utilisateur peut décrire le son souhaité par des mots ou télécharger une photographie—et obtenir une piste de 30 secondes prête à l'emploi. Pas de notation musicale, pas de connaissances en studio, pas d'équipement spécialisé. Ce n'est pas simplement une nouvelle fonction dans une longue liste de mises à jour—c'est la tentative de Google de redéfinir qui a réellement le droit d'être appelé auteur de musique.
Pour comprendre l'ampleur de cette démarche, il est important de se souvenir du contexte. La génération audio à partir de texte existe depuis plusieurs années : Suno, Udio, MusicGen de Meta—tous offrent des capacités similaires de qualité variable. Mais la plupart de ces services existaient en dehors des produits grand public, exigeaient une inscription dans des applications spécialisées et restaient un loisir de niche pour un public techniquement préparé. Google parie sur quelque chose de différent : Lyria 3 est intégrée directement à Gemini—une application utilisée par des centaines de millions de personnes dans le monde. La barrière à l'entrée disparaît presque complètement.
Lyria 3 est le modèle musical le plus avancé de Google à ce jour. L'entreprise l'a développé dans le cadre de la direction de recherche de DeepMind, et désormais le résultat de ce travail passe du laboratoire vers le téléphone de l'utilisateur ordinaire. La mécanique est simple : vous décrivez l'ambiance, le genre, les instruments ou l'atmosphère en texte—par exemple, « lo-fi relaxant avec piano et pluie derrière la fenêtre »—et le modèle génère une piste.
Le chemin alternatif est encore plus intéressant : vous pouvez télécharger une image, et Lyria 3 interprète elle-même son contenu visuel en une image musicale. Un coucher de soleil sur la mer devient une mélodie, l'agitation urbaine en devient une complètement différente. C'est cette approche multimodale qui distingue l'offre de Google de celle de la plupart de ses concurrents.
Pour l'industrie, c'est un signal avec plusieurs niveaux de sens. Le premier est évident : les plus grandes entreprises technologiques concurrencent sérieusement pour l'audience créative. OpenAI a déjà intégré la génération d'images à ChatGPT, Meta développe ses propres outils multimodaux, Apple construit silencieusement des fonctionnalités IA dans son écosystème.
Google, avec Lyria 3 dans Gemini, fait de la musique le prochain champ de bataille. Le deuxième niveau est plus complexe : l'apparition de tels outils dans un produit grand public soulève inévitablement des questions sur les droits d'auteur et la monétisation. Sur quelles données Lyria 3 a-t-elle été entraînée ?
Que se passe-t-il avec la piste que vous avez générée—pouvez-vous la publier, la vendre, l'utiliser dans des projets commerciaux ? Pour l'instant, Google n'a pas fourni de réponses officielles exhaustives, et cela reste une zone d'incertitude que l'industrie observera attentivement.
Pour l'utilisateur ordinaire, les conséquences sont bien plus directes. Un podcasteur obtient la possibilité de créer un générique unique en une minute. Un créateur de contenu vidéo obtient une musique de fond sans avoir besoin de rechercher des pistes sous licence Creative Commons. Une personne qui a longtemps eu une mélodie en tête peut enfin la concrétiser sans connaître une seule note. C'est ce public—pas les musiciens professionnels, mais des millions de personnes ayant des besoins créatifs et aucun moyen technique—qui est le véritable objectif de Google. Trente secondes, c'est bien sûr peu, mais c'est un format tout à fait suffisant pour les jingles, les génériques, les inserts atmosphériques et les expériences.
Il faut envisager l'avenir ici sans euphorie excessive, mais aussi sans scepticisme. La génération musicale est encore loin de menacer les compositeurs professionnels—tout comme les IA textuelles n'ont pas supplanté les journalistes. Mais elle change l'économie de la créativité : elle réduit le coût de production de contenu, élargit le cercle des personnes capables de créer du contenu et crée de nouveaux rôles professionnels—ceux qui savent bien formuler des demandes et éditer le résultat. Lyria 3 dans Gemini n'est pas la fin de la profession musicale, mais le début d'une conversation sur ce que cela signifie d'être un auteur à une époque où l'outil lui-même sait jouer.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.