NVIDIA mostrou como Gemma 4 com voz e webcam roda no Jetson Orin Nano Super
A NVIDIA montou uma demo local de Gemma 4 para o Jetson Orin Nano Super: o modelo ouve a voz, recorre à webcam por conta própria quando necessário e responde…
Processado por IA de Hugging Face Blog; editado por Hamidun News
NVIDIA Demonstra como Gemma 4 com Voz e Webcam Funciona no Jetson Orin Nano Super
NVIDIA demonstrou um demo prático de edge: Gemma 4 consegue ouvir uma pergunta, acessar a webcam quando necessário e responder com voz — tudo localmente no Jetson Orin Nano Super com 8 GB de memória. A publicação de 22 de abril de 2026 é interessante não só pelo tutorial em si, mas também porque um agente multimodal é executado em uma placa compacta e não na nuvem.
Como Funciona
O cenário é montado como um simples agente de voz com uma ferramenta visual. O usuário pressiona a barra de espaço, faz uma pergunta verbalmente, após o qual o Parakeet converte localmente fala em texto. Então Gemma 4 recebe a solicitação e por si mesmo decide se precisa olhar através da webcam. Se sim, o script captura um quadro, passa para o modelo, e a resposta é então reproduzida através do Kokoro TTS. O artigo especifica que o modelo não descreve a imagem em absoluto, mas usa o que vê apenas para responder à pergunta específica.
"Honestamente, é já impressionante que isto funcione no
Jetson Orin Nano."
O ponto-chave é que não há gatilhos rígidos ou lógica manual como "se a pergunta contém a palavra câmera." O script abre exatamente uma ferramenta para Gemma 4 — `look_and_answer`, que tira uma foto e analisa a cena. Se deve chamá-la ou não, o modelo decide sozinho. Para isso, NVIDIA usa `llama-server` do `llama.cpp` com a flag `--jinja`, que habilita suporte nativo a tool calling. Essencialmente, este é um cenário VLA compacto onde a visão é conectada apenas quando verdadeiramente necessária.
O Que Você Precisa Para Executá-lo
O demo em si não parece magia pronta para usar: é mais uma instrução bem montada para entusiastas e desenvolvedores que querem replicar o pipeline multimodal local por si mesmos. NVIDIA descreve não só rodar o script Python, mas toda a pilha — desde pacotes do sistema e construção do `llama.cpp` até configuração de áudio, câmera e carregamento do vision projector para Gemma 4.
- Jetson Orin Nano Super com 8 GB de RAM, webcam, microfone USB ou câmera com microfone integrado, alto-falantes USB e teclado
- Ambiente Python com `opencv-python-headless`, `onnx_asr`, `kokoro-onnx`, `soundfile`, `huggingface-hub` e `numpy`
- `llama.cpp` construído localmente com CUDA, modelo `gemma-4-E2B-it` em GGUF, e arquivo `mmproj` separado sem o qual Gemma 4 não consegue ver
- Configuração de `MIC_DEVICE`, `SPK_DEVICE`, `WEBCAM` e `VOICE`, após o qual o demo é executado com um comando único `python3 Gemma4_vla.py`
- Modo texto separado via Docker se quiser testar rapidamente a parte LLM sem configuração visual completa
Ênfase especial foi colocada na RAM. A placa com 8 GB aguenta, mas o autor recomenda diretamente liberar RAM, desabilitar processos desnecessários, e até adicionar swap para evitar OOM ao carregar o modelo. A opção básica é `Q4_K_M` quantizado, e sob limitações muito apertadas você pode baixar para `Q3`. Este é um detalhe importante: isto não é sobre um produto consumidor polido, mas uma receita de trabalho onde cada gigabyte realmente afeta o resultado.
Por Que Isso Importa
A notícia aqui não é que Gemma 4 pode rodar em Jetson — isso é esperado para compilações leves. O que é mais importante: NVIDIA demonstra um padrão prático para um agente multimodal local que combina STT, LLM, tool calling, visão e TTS sem acesso obrigatório à nuvem. Para dispositivos edge, este é um sinal forte.
Anteriormente, tais cenários eram mais frequentemente associados com um servidor ou demos muito reduzidos onde o modelo simplesmente responde a texto. Ao mesmo tempo, a instrução honestamente mostra limitações. A primeira execução é lenta porque modelos são baixados e arquivos de voz são gerados.
Modo VLA completo requer compilação nativa e vision projector, enquanto a variante Docker é adequada apenas para texto. Se o sistema não tem memória suficiente, você tem que limpar manualmente. NVIDIA também não fornece benchmarks de velocidade no artigo ou mostra vídeo com latência real, então ainda há um longo caminho para um assistente pronto para todos.
Mas como uma demonstração da direção, este é um caso muito forte.
O Que Significa
Agentes AI locais estão se movendo mais perto de uso prático em hardware acessível. Para desenvolvedores, isso significa a capacidade de construir interfaces de voz privadas e protótipos multimodais sem infraestrutura de nuvem obrigatória. Para o mercado edge AI, é mais um passo a partir de apresentações bonitas para sistemas que podem ser realmente montados em uma mesa, testados e integrados em um produto.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.