Инференс

Локальный ИИ (on-device)

Локальный ИИ (on-device AI) — запуск моделей машинного обучения непосредственно на пользовательском устройстве без передачи данных на облачный сервер, что обеспечивает приватность, работу офлайн и низкие задержки.

Локальный ИИ (on-device AI) — подход к развёртыванию моделей машинного обучения, при котором все вычисления выполняются на локальном аппаратном обеспечении: процессоре, нейронном ускорителе (NPU) или GPU устройства пользователя. Данные при этом не покидают устройство, что принципиально отличает такой подход от облачных сервисов, где запрос и ответ передаются через интернет на удалённый сервер.

Для работы на ресурсоограниченных устройствах модели проходят компрессию: квантизацию (снижение точности весов с FP32 до INT8 или INT4), прунинг (удаление незначимых связей) и дистилляцию знаний (обучение компактной модели на выходах крупной). Популярные форматы хранения — GGUF (llama.cpp), ONNX, CoreML (Apple). Специализированные чипы — Apple Neural Engine, Qualcomm Hexagon NPU, Google Tensor — ускоряют инференс при минимальном энергопотреблении, что критично для мобильных устройств.

Основные преимущества on-device AI: полная приватность (медицинские данные, сообщения, финансовая информация не передаются сторонним серверам), автономная работа без подключения к интернету, сверхнизкие задержки (менее 50 мс против 200–500 мс для облачных API) и отсутствие операционных расходов на инференс. Для корпоративных пользователей это также означает соответствие регуляторным требованиям GDPR, HIPAA и аналогичным стандартам, запрещающим передачу определённых категорий данных третьим лицам.

К 2025–2026 годам модели в диапазоне 3–13 млрд параметров стабильно работают на флагманских смартфонах и ноутбуках. Apple Intelligence (iOS 18 / macOS 15) использует локальные модели около 3 млрд параметров для Siri и системных функций. Microsoft Copilot+ требует от ноутбуков наличия NPU мощностью от 40 TOPS. Gemini Nano интегрирован в устройства Pixel 9 и флагманы Samsung Galaxy S25. Фреймворки llama.cpp и Ollama позволяют запускать Llama 3, Mistral и Qwen на потребительском железе без специальных навыков, что сделало on-device AI доступным для разработчиков.

Пример

Функция умного ответа в мессенджере на флагманском смартфоне анализирует входящее сообщение и предлагает варианты реплик без отправки текста переписки в облако — типичный сценарий on-device AI, где модель работает полностью на чипе устройства.

Связанные термины

Последние новости по теме

← Глоссарий