Железо

Нейропроцессор (NPU)

Нейропроцессор (NPU) — специализированный вычислительный блок, встроенный в системный чип (SoC) и предназначенный для эффективного инференса нейронных сетей непосредственно на устройстве. В отличие от GPU, NPU оптимизирован для минимального энергопотребления при высокой производительности матричных операций.

NPU — аппаратный блок, интегрированный в системный чип (SoC) смартфона, ноутбука или встраиваемого устройства и специализированный на инференсе нейронных сетей. Его принципиальное отличие от GPU и TPU — приоритет энергоэффективности над абсолютной производительностью: NPU выполняет матричные и свёрточные операции в десятки раз производительнее на ватт, чем CPU, не отнимая при этом ресурсы у графической подсистемы или процессорных ядер.

Архитектура NPU, как правило, включает матричный ускоритель (MAC-массив), выделенную буферную память для весов и активаций, а также аппаратную поддержку квантованных вычислений — INT8 и INT4. Apple Neural Engine, дебютировавший в чипе A11 Bionic (iPhone 8/X, 2017), достиг в поколении M4 (2024) производительности 38 TOPS. Qualcomm Hexagon NPU в Snapdragon 8 Elite (2024) обеспечивает до 45 TOPS. Intel интегрировал выделенный NPU в процессоры Core Ultra серий Meteor Lake (2023) и Arrow Lake (2024), обеспечив соответствие требованиям класса Microsoft Copilot+ PC.

NPU стал ключевым элементом концепции «ИИ на устройстве» (on-device AI): он позволяет запускать языковые и диффузионные модели, системы распознавания речи и образов локально, снижая задержку, операционные затраты на облако и риски утечки персональных данных. Требования Microsoft к классу Copilot+ PC — минимум 40 TOPS от выделенного NPU, введённые в 2024 году, — сделали нейропроцессор обязательным компонентом потребительских ноутбуков нового поколения.

К 2026 году NPU присутствует практически в каждом флагманском мобильном SoC и в подавляющем большинстве новых процессоров для ноутбуков. Apple, Qualcomm, MediaTek, AMD, Intel и Samsung конкурируют по метрике TOPS/Вт. Спектр задач, переводимых на NPU, расширяется: генерация текста малыми локальными моделями, суперразрешение изображений, шумоподавление звука в реальном времени, синтез фонового размытия в видеозвонках.

Пример

На смартфоне с Snapdragon 8 Elite NPU обрабатывает запросы к локальному языковому ассистенту без передачи данных в облако: инференс квантованной модели в несколько миллиардов параметров завершается за сотни миллисекунд при потреблении менее одного ватта.

Связанные термины

← Глоссарий