Google DeepMind adaptou o Perch 2.0: modelo de canto de pássaros reconhece chamados de baleias
A Google DeepMind encontrou um uso inesperado para o Perch 2.0: o modelo, treinado com canto de pássaros, também reconhece com segurança sinais de baleias…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
Google DeepMind encontrou uma forma inesperada de estudar o oceano: o modelo Perch 2.0, criado para reconhecer cantos de pássaros e outros sons de animais terrestres, lida com segurança com vocalizações de baleias também. Isso pode reduzir o tempo gasto no desenvolvimento de modelos marinhos separados e acelerar o monitoramento acústico de populações raras.
Como o modelo Perch 2.0 foi testado
O Perch 2.0 é um modelo bioacústico fundamental treinado em milhões de gravações de pássaros, anfíbios, insetos e mamíferos. Inicialmente, ele foi desenvolvido não para o oceano, mas para analisar paisagens sonoras terrestres.
No entanto, as equipes do Google DeepMind e Google Research decidiram testar se podiam reutilizar a base existente em vez de construir um novo sistema do zero para baleias. A lógica é simples: se o modelo fundamental transfere conhecimento entre diferentes tipos de sinais, os cientistas não precisarão gastar tanto tempo de computação desenvolvendo um sistema separado. Para verificar isso, a equipe pegou três conjuntos de dados de áudio marinho contendo vocalizações de baleias e outros ruídos subaquáticos.
Cada fragmento de cinco segundos foi convertido em um espectrograma—um mapa visual de frequências e intensidade de som ao longo do tempo. O Perch 2.0 transformou esses dados em embeddings, ou seja, conjuntos compactos de características que podem distinguir, por exemplo, o assovio de uma orca do chamado de uma baleia-jubarte.
Depois disso, os pesquisadores treinaram um classificador logístico simples com apenas alguns exemplos: de quatro a 32 embeddings por conjunto de dados. Mesmo com um número tão pequeno de exemplos, a qualidade foi alta e melhorou com a adição de mais dados.
Por que a transferência de aprendizado funcionou
A ideia principal aqui é transfer learning, ou transferência de aprendizado. Um modelo primeiro aprende a extrair padrões acústicos gerais de um vasto conjunto de dados e depois aplica esses conhecimentos a uma tarefa diferente, mas relacionada. No caso do Perch 2.0, a transferência é particularmente inesperada: pássaros cantam no ar, enquanto baleias trocam sinais debaixo d'água. Porém, o modelo parece captar não apenas o meio de transmissão do som, mas padrões mais sutis—a forma dos assovios, dinâmica de frequências, duração do sinal e microestrutura.
"Treinamos esse modelo para encontrar pequenos detalhes em paisagens sonoras."
Os pesquisadores oferecem várias explicações. Pássaros e mamíferos marinhos podem ter mecanismos evolutivamente semelhantes de produção de som. Além disso, modelos grandes treinados em dados diversos frequentemente funcionam bem fora de seu domínio original. Por fim, reconhecer vocalizações de pássaros é em si muito complexo: o modelo é forçado a notar as menores diferenças. Isso provavelmente ajuda debaixo d'água. De acordo com a equipe, assovios de algumas populações de orcas até caem em intervalos espectrais semelhantes aos de muitos sinais de pássaros.
Por que isso importa para biólogos
Para pesquisadores do oceano, esse resultado é importante não apenas como uma demonstração elegante. Em bioacústica, pesquisadores constantemente descobrem novos tipos de sinais, e alguns ruídos subaquáticos ainda carecem de classificação confiável. Se em vez de criar um modelo separado para cada espécie, os pesquisadores puderem pegar um sistema fundamental poderoso e ajustar rapidamente um classificador leve, o ciclo de pesquisa fica notavelmente mais curto. Isso é particularmente útil para monitoramento acústico passivo, onde cientistas ouvem vastos arquivos de gravações de boias, hidrofones e estações autônomas por meses.
- Implantação mais rápida de novos modelos para populações específicas de baleias
- Custos de treinamento reduzidos e sobrecarga de busca de arquitetura
- Desempenho mesmo com muito poucos exemplos rotulados
- Busca mais flexível por tipos de sinais raros e não descritos
Também é importante que o Perch 2.0 tenha sido comparado não apenas ao modelo anterior de baleias do Google, mas também a outros modelos bioacústicos para pássaros, animais e recifes de coral. Nessas comparações, foi o melhor ou o segundo melhor em qualidade. Então não estamos falando de um teste aleatório de sorte, mas de um resultado forte contra alternativas especializadas. Para projetos de conservação, esse é um bom sinal: uma ferramenta de áudio fundamental pode trabalhar em múltiplos ecossistemas.
O que isso significa
A história do Perch 2.0 mostra que modelos fundamentais de IA estão começando a beneficiar não apenas chatbots e geração de conteúdo, mas também ciência de campo. Se a transferência de aprendizado funciona entre pássaros e baleias, os biólogos têm uma chance de monitorar o status da população mais rapidamente, notar mudanças no comportamento dos animais e proteger melhor as espécies vulneráveis.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.