Google DeepMind a adapte Perch 2.0 : le modele de chant d'oiseaux reconnait les cris de baleines
Google DeepMind a trouve une utilisation inattendue pour Perch 2.0 : le modele, entraine sur le chant des oiseaux, reconnait aussi avec assurance les signaux…
Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Google DeepMind a trouvé une façon inattendue d'étudier l'océan : le modèle Perch 2.0, créé pour reconnaître les chants d'oiseaux et autres sons d'animaux terrestres, gère avec assurance les vocalisations de baleines aussi. Cela pourrait réduire le temps consacré au développement de modèles marins séparés et accélérer la surveillance acoustique des populations rares.
Comment le modèle Perch 2.0 a été testé
Perch 2.0 est un modèle bioacoustique fondamental entraîné sur des millions d'enregistrements d'oiseaux, d'amphibiens, d'insectes et de mammifères. Au départ, il a été développé non pour l'océan, mais pour analyser les paysages sonores terrestres.
Cependant, les équipes de Google DeepMind et Google Research ont décidé de tester s'ils pouvaient réutiliser la base existante plutôt que de construire un nouveau système à partir de zéro pour les baleines. La logique est simple : si le modèle fondamental transfère les connaissances entre différents types de signaux, les scientifiques n'auront pas à dépenser autant de ressources informatiques et de temps pour développer un système séparé. Pour vérifier cela, l'équipe a pris trois ensembles de données audio marins contenant des vocalisations de baleines et d'autres bruits sous-marins.
Chaque fragment de cinq secondes a été converti en un spectrogramme—une carte visuelle des fréquences et de l'intensité du son dans le temps. Perch 2.0 a transformé ces données en embeddings, c'est-à-dire des ensembles compacts de caractéristiques qui peuvent distinguer, par exemple, le sifflement d'une orque de l'appel d'une baleine à bosse.
Après cela, les chercheurs ont entraîné un classificateur logistique simple sur seulement quelques exemples : de quatre à 32 embeddings par ensemble de données. Même avec un si petit nombre d'exemples, la qualité était élevée et s'améliorait avec l'ajout de données supplémentaires.
Pourquoi l'apprentissage par transfert a fonctionné
L'idée clé ici est transfer learning, ou apprentissage par transfert. Un modèle d'abord apprend à extraire des modèles acoustiques généraux d'un vaste ensemble de données, puis applique ces connaissances à une tâche différente mais connexe. Dans le cas de Perch 2.0, le transfert est particulièrement inattendu : les oiseaux chantent dans l'air, tandis que les baleines échangent des signaux sous l'eau. Pourtant, le modèle semble saisir non seulement le milieu de transmission du son, mais des modèles plus subtils—la forme des sifflements, la dynamique des fréquences, la durée du signal et la microstructure.
"Nous entraînons ce modèle à trouver de petits détails dans les
paysages sonores."
Les chercheurs offrent plusieurs explications. Les oiseaux et les mammifères marins peuvent avoir des mécanismes de production sonore évolutionnairement similaires. De plus, les grands modèles entraînés sur des données diversifiées fonctionnent souvent bien en dehors de leur domaine d'origine. Enfin, reconnaître les vocalisations d'oiseaux est en soi très complexe : le modèle est forcé de remarquer les plus petites différences. Cela l'aide probablement sous l'eau. Selon l'équipe, les sifflements de certaines populations d'orques entrent même dans des gammes spectrales similaires à de nombreux signaux d'oiseaux.
Pourquoi cela importe pour les biologistes
Pour les chercheurs océanographes, ce résultat est important non seulement comme une démonstration élégante. En bioacoustique, les chercheurs découvrent constamment de nouveaux types de signaux, et certains bruits sous-marins manquent encore de classification fiable. Si au lieu de créer un modèle séparé pour chaque espèce, les chercheurs peuvent prendre un système fondamental puissant et affiner rapidement un classificateur léger, le cycle de recherche devient notablement plus court. Ceci est particulièrement utile pour la surveillance acoustique passive, où les scientifiques écoutent de vastes archives d'enregistrements provenant de bouées, d'hydrophones et de stations autonomes pendant des mois.
- Déploiement plus rapide de nouveaux modèles pour des populations spécifiques de baleines
- Coûts de formation réduits et surcharge de recherche d'architecture
- Performance même avec très peu d'exemples étiquetés
- Recherche plus flexible pour des types de signaux rares et non décrits
Il est également important que Perch 2.0 ait été comparé non seulement au précédent modèle de baleines de Google, mais aussi à d'autres modèles bioacoustiques pour les oiseaux, les animaux et les récifs coralliens. Dans ces comparaisons, il était soit le meilleur, soit le deuxième meilleur en qualité. Nous ne parlons donc pas d'un test aléatoire heureux, mais d'un résultat solide face à des alternatives spécialisées. Pour les projets de conservation, c'est un bon signe : un outil audio fondamental peut fonctionner dans plusieurs écosystèmes.
Ce que cela signifie
L'histoire de Perch 2.0 montre que les modèles fondamentaux d'IA commencent à profiter non seulement aux chatbots et à la génération de contenu, mais aussi à la science de terrain. Si l'apprentissage par transfert fonctionne entre les oiseaux et les baleines, les biologistes ont une chance de surveiller l'état des populations plus rapidement, de remarquer les changements dans le comportement des animaux et de mieux protéger les espèces vulnérables.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.