IEEE Spectrum AI→ оригинал

Маори разработали собственный синтезатор речи и защитили его от Big Tech скрейпинга

Профессор Te Taka Keegan и его команда разработали синтезатор речи для маорийского диалекта Waikato-Maniapoto. Модель была обучена на 7 часах 45 минут записей п

AI-обработка оригинала IEEE Spectrum AI; редакция Hamidun News
Маори разработали собственный синтезатор речи и защитили его от Big Tech скрейпинга
Источник: IEEE Spectrum AI. Коллаж: Hamidun News.
◐ Слушать статью

Маорийская община Новой Зеландии разработала собственный синтезатор речи, который они полностью контролируют. Это первый шаг к цифровому суверенитету, когда язык остается собственностью людей, которые на нем говорят.

Скрейпинг без разрешения ChatGPT, Claude и Perplexity отлично говорят по-маорийски.

Они это умеют, потому что обучены на данных маорийских сообществ — текстах и аудио, которые были скреплены без спроса. Профессор Te Taka Keegan из университета Waikato видит в этом главную проблему: "Эти компании имеют ресурсы для создания хороших моделей, но они скрепили все данные без нашего участия, и мы не владеем результатом. Наш язык — главный способ передачи нашего знания, а технология, разработанная за пределами Aotearoa, все больше контролирует эту передачу".

Почему маорийский сложнее английского

Маорийский язык не похож на английский, и это создает проблемы для AI. Несколько лингвистических особенностей делают его особенно сложным для автоматизации: * Долгота гласных меняет смысл слова: keke — "торт", kēkē — "подмышка", kekē — "скрипеть"

  • Диграфы читаются не как в английском: "wh" произносится как "ф"
  • Это низкоресурсный язык с мало доступных текстов и записей в цифре Для решения этой проблемы Keegan пригласил Ngaringi Katipa — переводчицу и преподавательницу маорийского языка. Сначала они записали 4,5 часа её чтения, потом расширили датасет с помощью лингвиста Peter Keegan (брат Te Taka) до финальных 7 часов 45 минут.

Фонемы вместо букв

Keegan и его аспирант Kingsley Eng выбрали фонемный подход — модель обучается не на буквах, а на звуках. Это дало модели "фору в обучении": она сразу понимает, какие группы букв как звучат. Они протестировали три открытых архитектуры (Matcha-TTS, Tacotron2, Piper) и выбрали Piper, потому что работает оффлайн на локальном компьютере. Результат превзошел ожидания. При менее чем 8 часах записей модель достигла ошибки в 6,78% — это считается "хорошим" результатом в индустрии, где обычно требуется сотни часов. Когда 68 носителей маорийского языка слушали синтетический и человеческий голос и пытались их различить, они угадали только в 65% случаев. Keegan поясняет: "Мы доволны, потому что некоторые были родственниками оригинального голоса, знают его отлично, но даже они ошиблись".

От университета к общине

Вместо того, чтобы выпустить модель в открытый доступ, Keegan ведет переговоры с тремя iwi — маорийскими племенами (Waikato, Maniapoto и Raukawa), которым родственна Katipa. "Опека над этим должна быть у них, а не у университета", — говорит профессор. Он видит в этом воплощение принципа, который маори называют "кайтиакитанга" — защита знания для будущих поколений. Это часть глобального тренда. Маорийская организация Te Hiku Media разработала систему распознавания речи с точностью 92% для маорийского языка и 82% для двуязычной речи, выпустив её под лицензией Kaitiakitanga, которая запрещает использовать данные без пользы маорийскому народу.

Что это значит

Keegan планирует не одну "маорийскую LLM", а отдельные модели для каждого диалекта: Maniapoto LLM, Tūhoe LLM и так далее, каждая принадлежит своему народу и обучена на его голосах. Это создает шаблон для других малых языков мира: синтезировать, владеть, защищать. Не быть объектом скрейпинга, а быть хозяином своей технологии.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…