NVIDIA mostrou como Gemma 4 com voz e webcam roda no Jetson Orin Nano Super

Q: Qual é a fonte?

Publicado originalmente em Hugging Face Blog. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

1 de mai. de 2026. Tempo de leitura: 3 min.

A NVIDIA montou uma demo local de Gemma 4 para o Jetson Orin Nano Super: o modelo ouve a voz, recorre à webcam por conta própria quando necessário e responde…

Redação da Hamidun News

Monitoramento de AI · Hugging Face Blog

1 de mai. de 2026· 3 min

Processado por IA de Hugging Face Blog; editado por Hamidun News

NVIDIA mostrou como Gemma 4 com voz e webcam roda no Jetson Orin Nano Super — Fonte: Hugging Face Blog. Colagem: Hamidun News.

◐ Ouvir artigo

NVIDIA Demonstra como Gemma 4 com Voz e Webcam Funciona no Jetson Orin Nano Super

NVIDIA demonstrou um demo prático de edge: Gemma 4 consegue ouvir uma pergunta, acessar a webcam quando necessário e responder com voz — tudo localmente no Jetson Orin Nano Super com 8 GB de memória. A publicação de 22 de abril de 2026 é interessante não só pelo tutorial em si, mas também porque um agente multimodal é executado em uma placa compacta e não na nuvem.

Como Funciona

O cenário é montado como um simples agente de voz com uma ferramenta visual. O usuário pressiona a barra de espaço, faz uma pergunta verbalmente, após o qual o Parakeet converte localmente fala em texto. Então Gemma 4 recebe a solicitação e por si mesmo decide se precisa olhar através da webcam. Se sim, o script captura um quadro, passa para o modelo, e a resposta é então reproduzida através do Kokoro TTS. O artigo especifica que o modelo não descreve a imagem em absoluto, mas usa o que vê apenas para responder à pergunta específica.

"Honestamente, é já impressionante que isto funcione no

Jetson Orin Nano."

O ponto-chave é que não há gatilhos rígidos ou lógica manual como "se a pergunta contém a palavra câmera." O script abre exatamente uma ferramenta para Gemma 4 — `look_and_answer`, que tira uma foto e analisa a cena. Se deve chamá-la ou não, o modelo decide sozinho. Para isso, NVIDIA usa `llama-server` do `llama.cpp` com a flag `--jinja`, que habilita suporte nativo a tool calling. Essencialmente, este é um cenário VLA compacto onde a visão é conectada apenas quando verdadeiramente necessária.

O Que Você Precisa Para Executá-lo

O demo em si não parece magia pronta para usar: é mais uma instrução bem montada para entusiastas e desenvolvedores que querem replicar o pipeline multimodal local por si mesmos. NVIDIA descreve não só rodar o script Python, mas toda a pilha — desde pacotes do sistema e construção do `llama.cpp` até configuração de áudio, câmera e carregamento do vision projector para Gemma 4.

Jetson Orin Nano Super com 8 GB de RAM, webcam, microfone USB ou câmera com microfone integrado, alto-falantes USB e teclado
Ambiente Python com `opencv-python-headless`, `onnx_asr`, `kokoro-onnx`, `soundfile`, `huggingface-hub` e `numpy`
`llama.cpp` construído localmente com CUDA, modelo `gemma-4-E2B-it` em GGUF, e arquivo `mmproj` separado sem o qual Gemma 4 não consegue ver
Configuração de `MIC_DEVICE`, `SPK_DEVICE`, `WEBCAM` e `VOICE`, após o qual o demo é executado com um comando único `python3 Gemma4_vla.py`
Modo texto separado via Docker se quiser testar rapidamente a parte LLM sem configuração visual completa

Ênfase especial foi colocada na RAM. A placa com 8 GB aguenta, mas o autor recomenda diretamente liberar RAM, desabilitar processos desnecessários, e até adicionar swap para evitar OOM ao carregar o modelo. A opção básica é `Q4_K_M` quantizado, e sob limitações muito apertadas você pode baixar para `Q3`. Este é um detalhe importante: isto não é sobre um produto consumidor polido, mas uma receita de trabalho onde cada gigabyte realmente afeta o resultado.

Por Que Isso Importa

A notícia aqui não é que Gemma 4 pode rodar em Jetson — isso é esperado para compilações leves. O que é mais importante: NVIDIA demonstra um padrão prático para um agente multimodal local que combina STT, LLM, tool calling, visão e TTS sem acesso obrigatório à nuvem. Para dispositivos edge, este é um sinal forte.

Anteriormente, tais cenários eram mais frequentemente associados com um servidor ou demos muito reduzidos onde o modelo simplesmente responde a texto. Ao mesmo tempo, a instrução honestamente mostra limitações. A primeira execução é lenta porque modelos são baixados e arquivos de voz são gerados.

Modo VLA completo requer compilação nativa e vision projector, enquanto a variante Docker é adequada apenas para texto. Se o sistema não tem memória suficiente, você tem que limpar manualmente. NVIDIA também não fornece benchmarks de velocidade no artigo ou mostra vídeo com latência real, então ainda há um longo caminho para um assistente pronto para todos.

Mas como uma demonstração da direção, este é um caso muito forte.

O Que Significa

Agentes AI locais estão se movendo mais perto de uso prático em hardware acessível. Para desenvolvedores, isso significa a capacidade de construir interfaces de voz privadas e protótipos multimodais sem infraestrutura de nuvem obrigatória. Para o mercado edge AI, é mais um passo a partir de apresentações bonitas para sistemas que podem ser realmente montados em uma mesa, testados e integrados em um produto.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis