IEEE Spectrum AI→ original

Google DeepMind adaptó Perch 2.0: el modelo de canto de aves reconoce llamados de ballenas

Google DeepMind encontró un uso inesperado para Perch 2.0: el modelo, entrenado con canto de aves, también reconoce con seguridad señales de ballenas. En…

Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
Google DeepMind adaptó Perch 2.0: el modelo de canto de aves reconoce llamados de ballenas
Fuente: IEEE Spectrum AI. Collage: Hamidun News.
◐ Escuchar artículo

Google DeepMind encontró una forma inesperada de estudiar el océano: el modelo Perch 2.0, creado para reconocer cantos de pájaros y otros sonidos de animales terrestres, maneja con seguridad las vocalizaciones de ballenas también. Esto podría reducir el tiempo dedicado al desarrollo de modelos marinos separados y acelerar el monitoreo acústico de poblaciones raras.

Cómo se probó el modelo Perch 2.0

Perch 2.0 es un modelo bioacústico fundamental entrenado en millones de grabaciones de pájaros, anfibios, insectos y mamíferos. Inicialmente, fue desarrollado no para el océano, sino para analizar paisajes sonoros terrestres.

Sin embargo, los equipos de Google DeepMind y Google Research decidieron probar si podían reutilizar la base existente en lugar de construir un nuevo sistema desde cero para ballenas. La lógica es simple: si el modelo fundamental transfiere conocimiento entre diferentes tipos de señales, los científicos no tendrán que gastar tanta computación y tiempo desarrollando un sistema separado. Para verificar esto, el equipo tomó tres conjuntos de datos de audio marino que contienen vocalizaciones de ballenas y otros ruidos submarinos.

Cada fragmento de cinco segundos se convirtió en un espectrograma—un mapa visual de frecuencias e intensidad de sonido a lo largo del tiempo. Perch 2.0 transformó estos datos en embeddings, es decir, conjuntos compactos de características que pueden distinguir, por ejemplo, el silbido de una orca del canto de una ballena jorobada.

Después, los investigadores entrenaron un clasificador logístico simple con solo unos pocos ejemplos: de cuatro a 32 embeddings por conjunto de datos. Incluso con un número tan pequeño de ejemplos, la calidad fue alta y mejoró con la adición de más datos.

Por qué funcionó la transferencia de aprendizaje

La idea clave aquí es transfer learning, o transferencia de aprendizaje. Un modelo primero aprende a extraer patrones acústicos generales de un vasto conjunto de datos y luego aplica estos conocimientos a una tarea diferente pero relacionada. En el caso de Perch 2.0, la transferencia es particularmente inesperada: los pájaros cantan en el aire, mientras que las ballenas intercambian señales bajo el agua. Sin embargo, el modelo parece captar no solo el medio de transmisión del sonido, sino patrones más sutiles—la forma de los silbidos, dinámicas de frecuencias, duración de la señal y microestructura.

"Entrenamos este modelo para encontrar pequeños detalles en paisajes sonoros."

Los investigadores ofrecen varias explicaciones. Los pájaros y los mamíferos marinos pueden tener mecanismos evolutivamente similares de producción de sonido. Además, los modelos grandes entrenados en datos diversos a menudo funcionan bien fuera de su dominio original. Finalmente, reconocer vocalizaciones de pájaros es en sí mismo muy complejo: el modelo se ve forzado a notar las diferencias más pequeñas. Esto probablemente lo ayuda bajo el agua. Según el equipo, los silbidos de algunas poblaciones de orcas incluso caen en rangos espectrales similares a muchas señales de pájaros.

Por qué esto importa para los biólogos

Para los investigadores del océano, este resultado es importante no solo como una demostración elegante. En bioacústica, los investigadores descubren constantemente nuevos tipos de señales, y algunos ruidos submarinos aún carecen de clasificación confiable. Si en lugar de crear un modelo separado para cada especie, los investigadores pueden tomar un sistema fundamental poderoso y ajustar rápidamente un clasificador ligero, el ciclo de investigación se vuelve notablemente más corto. Esto es particularmente útil para el monitoreo acústico pasivo, donde los científicos escuchan vastos archivos de grabaciones de boyas, hidrófono y estaciones autónomas durante meses.

  • Despliegue más rápido de nuevos modelos para poblaciones específicas de ballenas
  • Costos de entrenamiento reducidos y búsqueda de arquitectura simplificada
  • Rendimiento incluso con muy pocos ejemplos etiquetados
  • Búsqueda más flexible de tipos de señales raros y no descritos

También es importante que Perch 2.0 se haya comparado no solo con el modelo anterior de ballenas de Google, sino también con otros modelos bioacústicos para pájaros, animales y arrecifes de coral. En estas comparaciones, fue el mejor o el segundo mejor en calidad. Así que no estamos hablando de una prueba aleatoria afortunada, sino de un resultado sólido frente a alternativas especializadas. Para los proyectos de conservación, esta es una buena señal: una herramienta de audio fundamental puede funcionar en múltiples ecosistemas.

Lo que esto significa

La historia de Perch 2.0 muestra que los modelos fundamentales de IA están comenzando a beneficiar no solo a los chatbots y la generación de contenido, sino también a la ciencia de campo. Si la transferencia de aprendizaje funciona entre pájaros y ballenas, los biólogos tienen la oportunidad de monitorear el estado de la población más rápidamente, notar cambios en el comportamiento de los animales y proteger mejor las especies vulnerables.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…