Маори разработали собственный синтезатор речи и защитили его от Big Tech скрейпинга
Профессор Te Taka Keegan и его команда разработали синтезатор речи для маорийского диалекта Waikato-Maniapoto. Модель была обучена на 7 часах 45 минут записей п
Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
Las comunidades māori de Nueva Zelanda han desarrollado su propio sintetizador de voz que controlan completamente. Este es un primer paso hacia la soberanía digital, donde el idioma sigue siendo propiedad de las personas que lo hablan.
Scraping sin permiso
ChatGPT, Claude y Perplexity hablan māori excelentemente. Pueden hacerlo porque fueron entrenados en datos de comunidades māori — textos y audio que fueron recopilados sin permiso. El profesor Te Taka Keegan de la Universidad de Waikato ve esto como el principal problema: "Estas empresas tienen recursos para crear buenos modelos, pero recopilaron todos los datos sin nuestra participación, y no somos dueños del resultado. Nuestro idioma es el principal medio de transmisión de nuestro conocimiento, y la tecnología desarrollada fuera de Aotearoa cada vez controla más esta transmisión."
Por qué el māori es más difícil que el inglés
El idioma māori no es como el inglés, y esto crea problemas para la IA. Varias características lingüísticas lo hacen particularmente difícil de automatizar:
- La duración de las vocales cambia el significado de la palabra: keke — "pastel", kēkē — "axila", kekē — "crujir"
- Los dígrafos no se pronuncian como en inglés: "wh" suena como "f"
- Es una lengua con pocos recursos con pocos textos y grabaciones disponibles en forma digital
Para resolver este problema, Keegan invitó a Ngaringi Katipa — una traductora y profesora de lengua māori. Primero, grabaron 4,5 horas de su lectura, luego expandieron el conjunto de datos con la ayuda del lingüista Peter Keegan (hermano de Te Taka) hasta 7 horas 45 minutos.
Fonemas en lugar de letras
Keegan y su estudiante de postgrado Kingsley Eng eligieron un enfoque fonémico — el modelo se entrena no en letras, sino en sonidos. Esto le dio al modelo una "ventaja en el aprendizaje": entiende inmediatamente cómo suenan los grupos de letras. Probaron tres arquitecturas de código abierto (Matcha-TTS, Tacotron2, Piper) y eligieron Piper porque funciona sin conexión en una computadora local.
Los resultados superaron las expectativas. Con menos de 8 horas de grabaciones, el modelo logró una tasa de error del 6,78% — considerado un resultado "bueno" en la industria, donde generalmente se requieren cientos de horas. Cuando 68 hablantes nativos de māori escucharon voces sintéticas y humanas e intentaron distinguirlas, acertaron solo el 65% de las veces.
Keegan explica: "Estamos satisfechos porque algunos eran parientes de la voz original, la conocen bien, pero incluso ellos se equivocaron."
De la universidad a la comunidad
En lugar de lanzar el modelo al acceso abierto, Keegan está negociando con tres iwi — tribus māori (Waikato, Maniapoto y Raukawa) con las que Katipa está relacionada. "La custodia de esto debe estar con ellos, no con la universidad," dice el profesor. Él ve en esto la realización de un principio que los māori llaman "kaitiakitanga" — proteger el conocimiento para las generaciones futuras. Esto es parte de una tendencia global. La organización māori Te Hiku Media desarrolló un sistema de reconocimiento de voz con 92% de precisión para la lengua māori y 82% para el habla bilingüe, lanzándolo bajo la licencia Kaitiakitanga, que prohíbe el uso de datos sin beneficio para el pueblo māori.
Lo que esto significa
Keegan planea no un "LLM māori", sino modelos separados para cada dialecto: Maniapoto LLM, Tūhoe LLM, y así sucesivamente, cada uno de propiedad de su propio pueblo y entrenado con sus voces. Esto crea un modelo para otros idiomas pequeños del mundo: sintetizar, poseer, proteger. No ser objeto de scraping, sino ser dueño de tu propia tecnología.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.