Hugging Face Blog→ original

NVIDIA mostró cómo Gemma 4 con voz y cámara web funciona en Jetson Orin Nano Super

NVIDIA armó una demo local de Gemma 4 para Jetson Orin Nano Super: el modelo escucha la voz, recurre por sí solo a la cámara web cuando hace falta y responde…

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
NVIDIA mostró cómo Gemma 4 con voz y cámara web funciona en Jetson Orin Nano Super
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA Muestra cómo Gemma 4 con Voz y Cámara Web Funciona en Jetson Orin Nano Super

NVIDIA mostró una demostración práctica de edge: Gemma 4 puede escuchar una pregunta, acceder a la cámara web cuando es necesario y responder con voz — todo localmente en Jetson Orin Nano Super con 8 GB de RAM. La publicación del 22 de abril de 2026 es interesante no solo por el tutorial en sí, sino también porque un agente multimodal se ejecuta en una placa compacta en lugar de en la nube.

Cómo Funciona

El escenario se ensambla como un simple agente de voz con una herramienta visual. El usuario presiona la barra espaciadora, hace una pregunta verbalmente, después de lo cual Parakeet convierte localmente el habla a texto. Luego Gemma 4 recibe la solicitud y ella misma decide si necesita mirar a través de la cámara web. Si es así, el script captura un fotograma, lo pasa al modelo, y la respuesta se vocaliza a través de Kokoro TTS. El artículo enfatiza específicamente que el modelo no describe la imagen en absoluto, sino que usa lo que ve solo para responder la pregunta específica.

"Honestamente, ya es impresionante que esto funcione en

Jetson Orin Nano."

El punto clave es que no hay disparadores rígidos o lógica manual como "si la pregunta contiene la palabra cámara." El script abre exactamente una herramienta para Gemma 4 — `look_and_answer`, que toma una foto y analiza la escena. Si llamarla o no, el modelo lo decide por sí mismo. Para esto, NVIDIA usa `llama-server` de `llama.cpp` con la bandera `--jinja`, que habilita soporte nativo para tool calling. Esencialmente, este es un escenario VLA compacto donde la visión se conecta solo cuando realmente es necesaria.

Qué Necesitas para Ejecutarlo

La demostración en sí no se ve como magia lista para usar: es más bien una instrucción bien armada para entusiastas y desarrolladores que quieren replicar el pipeline multimodal local por sí mismos. NVIDIA describe no solo ejecutar el script Python, sino toda la pila — desde paquetes del sistema y construcción de `llama.cpp` hasta configuración de audio, cámara y carga del vision projector para Gemma 4.

  • Jetson Orin Nano Super con 8 GB de RAM, cámara web, micrófono USB o cámara con micrófono integrado, altavoces USB y teclado
  • Entorno Python con `opencv-python-headless`, `onnx_asr`, `kokoro-onnx`, `soundfile`, `huggingface-hub` y `numpy`
  • `llama.cpp` construido localmente con CUDA, modelo `gemma-4-E2B-it` en GGUF, y archivo `mmproj` separado sin el cual Gemma 4 no puede ver
  • Configuración de `MIC_DEVICE`, `SPK_DEVICE`, `WEBCAM` y `VOICE`, después de lo cual la demostración se ejecuta con un solo comando `python3 Gemma4_vla.py`
  • Modo texto separado via Docker si quieres probar rápidamente la parte LLM sin configuración visual completa

Se hizo énfasis especial en la RAM. La placa con 8 GB la aguanta, pero el autor directamente recomienda liberar RAM, deshabilitar procesos innecesarios, e incluso añadir swap para evitar OOM al cargar el modelo. La opción básica es `Q4_K_M` cuantizado, y bajo restricciones muy estrictas puedes bajar a `Q3`. Este es un detalle importante: no se trata de un producto de consumidor pulido, sino de una receta de trabajo donde cada gigabyte realmente afecta el resultado.

Por Qué Esto es Interesante

La noticia aquí no es que Gemma 4 pueda ejecutarse en Jetson — eso es esperado para compilaciones ligeras. Lo más importante es otro: NVIDIA muestra un patrón práctico para un agente multimodal local que combina STT, LLM, tool calling, visión y TTS sin acceso obligatorio a la nube. Para dispositivos edge, esta es una señal fuerte.

Anteriormente, tales escenarios se asociaban más frecuentemente con un servidor o demostraciones muy reducidas donde el modelo simplemente responde a texto. Al mismo tiempo, la instrucción honestamente muestra limitaciones. La primera ejecución es lenta porque se descargan los modelos y se generan archivos de voz.

El modo VLA completo requiere compilación nativa y vision projector, mientras que la variante Docker es adecuada solo para texto. Si el sistema no tiene suficiente memoria, tienes que limpiar manualmente. NVIDIA tampoco proporciona benchmarks de velocidad en el artículo ni muestra vídeo con latencia real, así que todavía hay un largo camino hacia un asistente listo para todos.

Pero como demostración de la dirección, este es un caso muy fuerte.

Qué Significa

Los agentes AI locales se acercan más al uso práctico en hardware asequible. Para desarrolladores, esto significa la capacidad de construir interfaces de voz privadas y prototipos multimodales sin infraestructura de nube obligatoria. Para el mercado edge AI, es otro paso desde presentaciones bonitas hacia sistemas que se pueden realmente configurar en una mesa, probar e integrar en un producto.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…