Маори разработали собственный синтезатор речи и защитили его от Big Tech скрейпинга
Профессор Te Taka Keegan и его команда разработали синтезатор речи для маорийского диалекта Waikato-Maniapoto. Модель была обучена на 7 часах 45 минут записей п
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
As comunidades māori da Nova Zelândia desenvolveram seu próprio sintetizador de fala que controlam completamente. Este é um primeiro passo em direção à soberania digital, onde o idioma permanece propriedade das pessoas que o falam.
Scraping sem permissão
ChatGPT, Claude e Perplexity falam māori muito bem. Conseguem fazer isso porque foram treinados em dados de comunidades māori — textos e áudio que foram coletados sem permissão. O professor Te Taka Keegan da Universidade de Waikato vê isso como o principal problema: "Essas empresas têm recursos para criar bons modelos, mas coletaram todos os dados sem nossa participação, e não somos proprietários do resultado. Nossa língua é o principal meio de transmissão do nosso conhecimento, e a tecnologia desenvolvida fora de Aotearoa controla cada vez mais essa transmissão."
Por que o māori é mais difícil que o inglês
O idioma māori não é como o inglês, e isso cria problemas para a IA. Várias características linguísticas o tornam particularmente difícil de automatizar:
- A duração das vogais muda o significado da palavra: keke — "bolo", kēkē — "axila", kekē — "ranger"
- Os dígrafos não são pronunciados como no inglês: "wh" soa como "f"
- É uma língua com poucos recursos com poucos textos e gravações disponíveis em forma digital
Para resolver esse problema, Keegan convidou Ngaringi Katipa — uma tradutora e professora da língua māori. Primeiro, gravaram 4,5 horas de sua leitura, depois expandiram o conjunto de dados com ajuda do linguista Peter Keegan (irmão de Te Taka) até 7 horas 45 minutos.
Fonemas em vez de letras
Keegan e seu aluno de pós-graduação Kingsley Eng escolheram uma abordagem fonêmica — o modelo é treinado não em letras, mas em sons. Isso deu ao modelo uma "vantagem no aprendizado": compreende imediatamente como grupos de letras soam. Testaram três arquiteturas de código aberto (Matcha-TTS, Tacotron2, Piper) e escolheram Piper porque funciona offline em um computador local.
Os resultados superaram as expectativas. Com menos de 8 horas de gravações, o modelo alcançou uma taxa de erro de 6,78% — considerado um resultado "bom" na indústria, onde centenas de horas geralmente são necessárias. Quando 68 falantes nativos de māori ouviram vozes sintéticas e humanas e tentaram distingui-las, acertaram em apenas 65% dos casos.
Keegan explica: "Estamos satisfeitos porque alguns eram parentes da voz original, a conhecem bem, mas até eles erraram."
Da universidade para a comunidade
Em vez de lançar o modelo em acesso aberto, Keegan negocia com três iwi — tribos māori (Waikato, Maniapoto e Raukawa) às quais Katipa está relacionada. "A custódia disso deve estar com eles, não com a universidade," diz o professor. Ele vê isso como a realização de um princípio que os māori chamam de "kaitiakitanga" — proteger conhecimento para gerações futuras. Isso faz parte de uma tendência global. A organização māori Te Hiku Media desenvolveu um sistema de reconhecimento de fala com 92% de precisão para o idioma māori e 82% para fala bilíngue, lançando-o sob a licença Kaitiakitanga, que proíbe o uso de dados sem benefício ao povo māori.
O que isso significa
Keegan planeja não um "LLM māori", mas modelos separados para cada dialeto: Maniapoto LLM, Tūhoe LLM, e assim por diante, cada um pertencendo ao seu próprio povo e treinado em suas vozes. Isso cria um modelo para outros idiomas pequenos do mundo: sintetizar, possuir, proteger. Não ser objeto de scraping, mas ser mestre de sua própria tecnologia.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.