Habr AI→ оригинал

El STM32N6 de STMicroelectronics demostró reconocimiento de voz local sin nube a 0,2 W

El microcontrolador STM32N6 con NPU integrado logró reconocer habla no restringida directamente en el dispositivo, sin nube y con un consumo de unos 0,215 W. Po

El STM32N6 de STMicroelectronics demostró reconocimiento de voz local sin nube a 0,2 W
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Микроконтроллеры со встроенным NPU начинают заходить на территорию, которая раньше почти полностью принадлежала облачным сервисам распознавания речи. Эксперимент на STM32N6 показал, что локальное распознавание произвольной речи уже можно запустить прямо на устройстве — без интернета, почти в реальном времени и с потреблением около 0,215 Вт.

Как устроена система

Автор проекта собрал распознавание речи в три блока: акустическую модель, декодер и рескоринг. Самая тяжёлая часть — акустика: она получает сырой аудиосигнал с микрофона и превращает его в последовательность фонем. Декодер должен собирать из этих фонем слова, а блок рескоринга — перепроверять итог с учётом контекста.

На текущем этапе на STM32N6 уже работает именно акустическая модель, то есть ключевой фундамент всей системы. Практически это выглядит так: устройство слушает речь в реальном времени, прогоняет её через NPU и выдаёт поток фонем. В демонстрации сверху отображаются слова и числа, а снизу — «сырые» фонемы, которые предсказывает модель.

Пока перевод фонем в слова сделан через жёсткое сопоставление, а не полноценный языковой декодер. Из-за этого система ещё ограничена, но сам факт локальной работы акустической модели на микроконтроллере уже важнее, чем текущая «обвязка» вокруг неё.

Цифры и ограничения Самый сильный результат — энергопотребление.

Во время активного распознавания вся система потребляет около 215 мВт. Из них примерно 160 мВт уходят на NPU и ядро Cortex-M55, ещё 45 мВт — на внешнюю память Flash и PSRAM, около 10 мВт — на внешние пины. Причём это не режим после оптимизации: ядро пока работает без агрессивного сна, а NPU загружен лишь на 10,4%, так что запас для дальнейшего снижения потребления ещё есть.

По качеству картина тоже выглядит серьёзно для такого класса железа. Модель содержит 8,5 млн параметров, после квантования до int8 почти не потеряла точность и на целевом устройстве показала PER 5,3% на dev_clean и 14,4% на dev_other. Время инференса на NPU составило 52 мс на 500 мс аудио, а полная латентность — 985 мс.

Почти половина этой задержки связана не с железом, а с «окном в будущее», которое модель использует для более точного предсказания фонем.

  • Размер акустической модели — 8,5 млн параметров Энергопотребление при распознавании — около 0,215 Вт Время инференса NPU — 52 мс на 500 мс аудио Потеря качества после квантования до int8 — менее 0,5% Использование RAM — 18%, загрузка NPU — 10,4% Отдельно важно сравнение с более крупными системами. По PER эта модель оказалась сопоставима с wav2vec 2.0 Base и HuBERT Base, хотя те примерно в 11 раз больше и не предназначены для работы на микроконтроллерах. При этом автор честно обозначает границы проекта: это ещё не замена полноценной диктовке текста, а скорее локальный движок для коротких команд и фраз, где критичны автономность и экономия энергии.

Где микроконтроллер выиграет

Сильная сторона такого подхода — не универсальность любой ценой, а закрытие промежутка между простым keyword spotting и тяжёлым облачным ASR. Обычные локальные голосовые интерфейсы ждут точное совпадение команды, а здесь устройство уже может интерпретировать разные формулировки одной и той же просьбы. Вместо одной жёстко заданной фразы пользователь может сказать «сделай потеплее», «прибавь градусов пять» или «температуру вверх» — и система поймёт одно действие.

Отсюда появляются вполне прикладные сценарии: умный дом без отправки голоса наружу, голосовой ввод чисел и параметров на производстве, работа на складах, в медтехнике и в транспорте, где сеть нестабильна или её нет вообще. Ещё один плюс — запас роста. Сейчас у STM32N6 занято только 18% RAM, а NPU используется примерно на десятую часть.

Следующие шаги понятны: добавить фонемный декодер, языковую модель и шумоподавление. Именно они должны превратить убедительный технический прототип в реально полезный пользовательский интерфейс.

Что это значит STM32N6 не отменяет облачное распознавание речи, но

показывает, что часть задач уже можно уверенно переносить на край сети. Там, где важны автономность, приватность, цена и низкое энергопотребление, MCU с NPU начинают выглядеть не как эксперимент, а как новый практический класс голосовых интерфейсов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…