Google released WAXAL, an open speech dataset for African languages
Google made WAXAL public, a speech dataset for African languages that should accelerate the development of speech recognition and synthesis in low-resource sett

Google открыла WAXAL — большой речевой корпус для африканских языков, созданный как база для систем распознавания и синтеза речи. Проект нацелен на рынок, где голосовые технологии развиваются заметно медленнее из-за хронической нехватки качественных открытых данных.
Почему это важно Главная проблема речевого AI давно не в самих моделях, а в распределении данных.
Для английского, испанского или китайского есть огромные открытые и коммерческие корпуса, поэтому системы распознавания речи и синтеза голоса там прогрессируют быстро. Для многих африканских языков ситуация обратная: мало размеченной речи, мало качественных записей, мало открытых лицензий. Из-за этого люди, говорящие на языках с миллионами носителей, всё ещё получают худшее качество диктовки, автосубтитров, голосовых ассистентов и озвучки интерфейсов.
WAXAL пытается закрыть именно этот инфраструктурный разрыв. Показательно, что проект уже выглядит живым, а не статичным архивом. В техническом описании команда говорит о 24 языках и стартовом наборе для задач распознавания и синтеза речи.
В релизном блоге Google от 6 марта 2026 года фигурирует уже расширенная начальная поставка: 27 языков, более 1 846 часов данных для распознавания речи и свыше 565 часов для синтеза. То есть Google не просто выложила один датасет, а, похоже, строит долгосрочную открытую базу для языков, которые обычно остаются за пределами крупных AI-платформ.
Как устроен WAXAL WAXAL разделили на две независимые части, потому что
у распознавания речи и синтеза голоса разные требования к данным. Для первой нужны разнообразные спикеры, естественная среда и спонтанная речь, чтобы модель лучше работала в реальных условиях. Для второй — более чистый звук, фонически сбалансированные тексты и контролируемая запись, иначе на выходе сложно получить естественный и стабильный голос. В этом смысле WAXAL выглядит не как универсальная «папка с аудио», а как продуманный набор данных под два разных класса задач.
- В части для распознавания речи участников просили описывать изображения на родном языке, а не зачитывать готовые скрипты.
- Google пишет, что такие промпты покрывали более 50 тем и лучше вытягивали живую речь, включая тональные нюансы и переключение между языками.
- В части для синтеза использовались фонически сбалансированные тексты и более контролируемые условия записи.
- Датасет выпущен по открытой лицензии CC-BY-4.0, чтобы его можно было использовать в исследованиях и прикладных продуктах.
Кто собирал данные Ключевая часть проекта — не только объём, но и способ сбора.
Google работала не в одиночку, а вместе с африканскими университетами и локальными организациями, среди которых Makerere University, University of Ghana, Digital Umuganda, African Institute for Mathematical Sciences Senegal, Media Trust и Loud and Clear Communications. Такой формат важен, потому что локальные команды лучше понимают речевые привычки, смешение языков, региональные варианты произношения и контексты, в которых люди реально говорят, а не читают текст в тишине лаборатории.
«Корпус был создан сообществом и для сообщества, которому он нужен».
Интересны и детали производства. Для TTS-части участники готовили тексты объёмом от 10 до 20 тысяч слов и работали парами: один читал, другой записывал и проверял качество. Чтобы получить более чистый звук, некоторые команды даже собирали собственные студийные боксы.
Google отдельно подчёркивает, что WAXAL должен помочь не только академическим бенчмаркам, но и реальным сценариям: локальным голосовым интерфейсам, машинной диктовке, авторасшифровке, озвучке сервисов и разговорным системам, которые должны понимать живую речь, а не только идеально прочитанный текст. Параллельно вокруг корпуса уже начинает расти прикладная и исследовательская экосистема. Google упоминает работы по сбору данных для людей с нарушениями речи, отдельный большой корпус для пяти ганских языков и бенчмарки для моделей вроде Whisper, XLS-R, MMS и W2v-BERT на африканских языках.
Это хороший сигнал: WAXAL полезен не только как архив, но и как общая точка опоры, на которой можно сравнивать модели, искать слабые места и быстрее доводить голосовые продукты до рабочего качества.
Что это значит WAXAL снижает порог входа для стартапов, исследователей
и локальных команд, которые хотят делать voice AI не только для глобальных языков. Если такие открытые корпуса будут расти и регулярно обновляться, у африканских языков появится шанс быстрее догнать остальной рынок по качеству распознавания, синтеза и доступности цифровых сервисов.