IEEE Spectrum AI→ original

Маори разработали собственный синтезатор речи и защитили его от Big Tech скрейпинга

Профессор Te Taka Keegan и его команда разработали синтезатор речи для маорийского диалекта Waikato-Maniapoto. Модель была обучена на 7 часах 45 минут записей п

Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Маори разработали собственный синтезатор речи и защитили его от Big Tech скрейпинга
Source : IEEE Spectrum AI. Collage: Hamidun News.
◐ Écouter l'article

Les communautés māori de Nouvelle-Zélande ont développé leur propre synthétiseur de voix qu'elles contrôlent complètement. C'est une première étape vers la souveraineté numérique, où la langue reste la propriété des personnes qui la parlent.

Scraping sans permission

ChatGPT, Claude et Perplexity parlent māori excellemment. Ils peuvent le faire parce qu'ils ont été entraînés sur des données des communautés māori — des textes et de l'audio qui ont été collectés sans permission. Le professeur Te Taka Keegan de l'Université de Waikato voit cela comme le principal problème : "Ces entreprises ont les ressources pour créer de bons modèles, mais elles ont collecté toutes les données sans notre participation, et nous ne sommes pas propriétaires du résultat. Notre langue est le principal moyen de transmission de nos connaissances, et la technologie développée en dehors d'Aotearoa contrôle de plus en plus cette transmission."

Pourquoi le māori est plus difficile que l'anglais

La langue māori n'est pas comme l'anglais, et cela crée des problèmes pour l'IA. Plusieurs caractéristiques linguistiques la rendent particulièrement difficile à automatiser :

  • La durée des voyelles change le sens du mot : keke — "gâteau", kēkē — "aisselle", kekē — "grincer"
  • Les digrammes ne se prononcent pas comme en anglais : "wh" se prononce comme "f"
  • C'est une langue peu dotée en ressources avec peu de textes et d'enregistrements disponibles sous forme numérique

Pour résoudre ce problème, Keegan a invité Ngaringi Katipa — une traductrice et enseignante de la langue māori. D'abord, ils ont enregistré 4,5 heures de sa lecture, puis ont étendu l'ensemble de données avec l'aide du linguiste Peter Keegan (frère de Te Taka) à un total final de 7 heures 45 minutes.

Phonèmes au lieu de lettres

Keegan et son étudiante en maîtrise Kingsley Eng ont choisi une approche phonémique — le modèle est entraîné non pas sur des lettres, mais sur des sons. Cela a donné au modèle un "coup d'avance dans l'apprentissage" : il comprend immédiatement comment les groupes de lettres sonnent. Ils ont testé trois architectures open-source (Matcha-TTS, Tacotron2, Piper) et ont choisi Piper car il fonctionne hors ligne sur un ordinateur local.

Les résultats ont dépassé les attentes. Avec moins de 8 heures d'enregistrements, le modèle a atteint un taux d'erreur de 6,78% — considéré comme un résultat "bon" dans l'industrie, où des centaines d'heures sont généralement nécessaires. Quand 68 locuteurs natifs du māori ont écouté des voix synthétiques et humaines et ont essayé de les distinguer, ils ont deviné correctement seulement 65% du temps.

Keegan explique : "Nous sommes satisfaits car certains étaient des proches de la voix originale, la connaissent bien, mais même eux se sont trompés."

De l'université à la communauté

Plutôt que de libérer le modèle en accès ouvert, Keegan négocie avec trois iwi — des tribus māori (Waikato, Maniapoto et Raukawa) auxquelles Katipa est liée. "La garde de cela devrait être entre leurs mains, pas celles de l'université," dit le professeur. Il voit en cela l'incarnation d'un principe que les Māori appellent "kaitiakitanga" — protéger les connaissances pour les générations futures. Ceci fait partie d'une tendance mondiale. L'organisation māori Te Hiku Media a développé un système de reconnaissance vocale avec une précision de 92% pour la langue māori et 82% pour la parole bilingue, le libérant sous la licence Kaitiakitanga, qui interdit l'utilisation de données sans bénéfice pour le peuple māori.

Ce que cela signifie

Keegan envisage non pas un "LLM māori", mais des modèles séparés pour chaque dialecte : Maniapoto LLM, Tūhoe LLM, et ainsi de suite, chacun appartenant à son propre peuple et entraîné sur ses propres voix. Cela crée un modèle pour les autres petites langues du monde : synthétiser, posséder, protéger. Ne pas être l'objet du scraping, mais être le maître de sa propre technologie.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…