NVIDIA showed how Gemma 4 with voice and a webcam runs on Jetson Orin Nano Super

Q: Источник материала?

Оригинальная публикация на Hugging Face Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-01. Время чтения: 3 мин.

NVIDIA built a local Gemma 4 demo for Jetson Orin Nano Super: the model listens to voice input, accesses the webcam on its own when needed, and replies via TTS.

ЖХ

Редакция Hamidun News

AI‑мониторинг · Hugging Face Blog

2026-05-01· 3 мин

NVIDIA showed how Gemma 4 with voice and a webcam runs on Jetson Orin Nano Super — Источник: Hugging Face Blog. Коллаж: Hamidun News.

NVIDIA показала практичное edge-демо: Gemma 4 умеет слушать вопрос, при необходимости сама обращается к веб-камере и отвечает голосом — всё это локально на Jetson Orin Nano Super с 8 ГБ памяти. Публикация от 22 апреля 2026 года интересна не только самим туториалом, но и тем, что мультимодальный агент запускается на компактной плате, а не в облаке.

Как работает связка Сценарий собран как простой голосовой агент с одним визуальным инструментом.

Пользователь нажимает пробел, задаёт вопрос голосом, после чего Parakeet локально переводит речь в текст. Затем Gemma 4 получает запрос и сама решает, нужен ли ей взгляд через веб-камеру. Если да, скрипт делает кадр, передаёт его модели, а ответ затем озвучивается через Kokoro TTS. В статье отдельно подчёркивается, что модель не описывает картинку вообще, а использует увиденное только для ответа на конкретный вопрос.

«Честно говоря, впечатляет уже то, что это работает на Jetson Orin Nano».

Ключевой момент в том, что здесь нет жёстких триггеров и ручной логики вида «если в вопросе есть слово camera». Скрипт открывает для Gemma 4 ровно один tool — `look_and_answer`, который делает снимок и анализирует сцену. Вызывать его или нет, модель решает сама. Для этого NVIDIA использует `llama-server` из `llama.cpp` с флагом `--jinja`, который включает нативную поддержку tool calling. По сути, это компактный VLA-сценарий, где vision подключается только тогда, когда действительно нужен.

Что нужно для запуска

Само демо не выглядит магией из коробки: это скорее хорошо собранная инструкция для энтузиастов и разработчиков, которые хотят повторить локальный мультимодальный пайплайн у себя. NVIDIA описывает не только запуск Python-скрипта, но и весь стек — от системных пакетов и сборки `llama.cpp` до настройки аудио, камеры и загрузки vision projector для Gemma 4.

Jetson Orin Nano Super с 8 ГБ памяти, веб-камера, USB-микрофон или камера со встроенным микрофоном, USB-колонки и клавиатура Python-окружение с `opencv-python-headless`, `onnx_asr`, `kokoro-onnx`, `soundfile`, `huggingface-hub` и `numpy` Локально собранный `llama.cpp` с CUDA, модель `gemma-4-E2B-it` в GGUF и отдельный файл `mmproj`, без которого Gemma 4 не сможет видеть Настройка `MIC_DEVICE`, `SPK_DEVICE`, `WEBCAM` и `VOICE`, после чего демо запускается одной командой `python3 Gemma4_vla.py` Отдельный текстовый режим через Docker, если хочется быстро проверить LLM-часть без полной визуальной конфигурации Отдельный акцент сделан на памяти. Плата с 8 ГБ справляется, но автор прямо советует освободить RAM, отключить лишние процессы и даже добавить swap, чтобы не поймать OOM при загрузке модели. Базовым вариантом назван квантованный `Q4_K_M`, а при совсем жёстких ограничениях можно опуститься до `Q3`. Это важная деталь: речь не о полированном потребительском продукте, а о рабочем рецепте, где каждый гигабайт реально влияет на результат.

Почему это интересно

Новость здесь не в том, что Gemma 4 можно запустить на Jetson — это само по себе ожидаемо для облегчённых сборок. Важнее другое: NVIDIA показывает практический шаблон локального мультимодального агента, который объединяет STT, LLM, tool calling, vision и TTS без обязательного обращения к облаку. Для edge-устройств это сильный сигнал.

Раньше подобные сценарии чаще ассоциировались либо с сервером, либо с сильно урезанными демо, где модель просто отвечает на текст. При этом инструкция честно показывает ограничения. Первый запуск медленный, потому что подтягиваются модели и генерируются голосовые файлы.

Полноценный VLA-режим требует нативной сборки и vision projector, а Docker-вариант годится только для текста. Если серверу не хватает памяти, приходится вручную чистить систему. NVIDIA также не приводит в статье бенчмарки по скорости и не показывает видео с реальной задержкой, так что до готового ассистента для всех здесь ещё далеко.

Но как демонстрация направления это очень сильный кейс.

Что это значит

Локальные AI-агенты становятся ближе к практическому использованию на недорогом железе. Для разработчиков это означает возможность собирать приватные голосовые интерфейсы и мультимодальные прототипы без обязательной облачной инфраструктуры. Для рынка edge AI это ещё один шаг от красивых презентаций к системам, которые можно реально поднять на столе, проверить и встроить в продукт.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com