NVIDIA lanzó Nemotron 3 Nano 4B — un modelo híbrido compacto para ejecutarse en dispositivos

Q: ¿Cuál es la fuente?

Publicado originalmente en Hugging Face Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

30 abr 2026. Tiempo de lectura: 3 min.

NVIDIA lanzó Nemotron 3 Nano 4B, un modelo de lenguaje compacto para ejecutarse directamente en dispositivos, sin depender de la nube. La arquitectura…

Redacción de Hamidun News

Monitoreo de AI · Hugging Face Blog

30 abr 2026· 2 min

Procesado por IA desde Hugging Face Blog; editado por Hamidun News

NVIDIA lanzó Nemotron 3 Nano 4B — un modelo híbrido compacto para ejecutarse en dispositivos — Fuente: Hugging Face Blog. Collage: Hamidun News.

◐ Escuchar artículo

NVIDIA ha abierto el acceso a Nemotron 3 Nano 4B — un modelo de lenguaje compacto con 4 mil millones de parámetros, desarrollado específicamente para implementación edge en dispositivos Jetson, RTX GPU y DGX Spark. Este es el primer modelo 4B de NVIDIA construido sobre una arquitectura híbrida Mamba-Transformer con enfoque en consumo mínimo de memoria y alta velocidad de inferencia.

Arquitectura Híbrida de Nueva Generación

En el núcleo del Nemotron 3 Nano 4B hay una construcción de 42 capas: 21 bloques Mamba, 4 bloques Attention y 17 bloques MLP. Esta proporción es atípica para modelos de lenguaje de este tamaño — la mayoría de competidores se construyen exclusivamente sobre transformers. Las capas Mamba procesan secuencias largas con complejidad de memoria lineal, no cuadrática — esta es la principal fuente de eficiencia.

Los bloques Attention se colocan estratégicamente y preservan la precisión donde la comprensión global del contexto es crítica. En comparación con el modelo padre Nemotron Nano 9B v2, la dimensionalidad de embedding se redujo de 4.480 a 3.

136, el número de cabezas Mamba de 128 a 96, y el número de capas de 56 a 42. El resultado: la huella de VRAM más pequeña de la clase 4B cuando se prueba en RTX 4070 y latencia Time-to-First-Token récordmente baja para secuencias de entrada largas.

Cuatro Etapas de Entrenamiento

Nemotron 3 Nano 4B no es simplemente un modelo 9B reducido, sino un modelo con su propio pipeline de entrenamiento de cuatro etapas. La primera es compresión mediante Nemotron Elastic: búsqueda de arquitectura neural (NAS) con un router entrenado determinó exactamente dónde podar la red 9B. El router operaba en cuatro ejes: cabezas Mamba, dimensión oculta, canales FFN y profundidad del modelo. La segunda es destilación para recuperación de precisión:

Contexto corto (8K, 63B tokens): 70% datos post-entrenamiento + 30% preentrenamiento
Contexto largo (49K, 150B tokens): expansión de ventana para tareas complejas de razonamiento

La tercera es ajuste fino supervisado (SFT): dos etapas cubriendo matemáticas, código, ciencia, chat, tareas de agente y seguridad. La cuarta es aprendizaje por refuerzo de tres etapas a través de NeMo-RL: desde seguimiento de instrucciones de un solo turno hasta múltiples turnos con salidas JSON/XML y además invocación de función de herramientas. La proporción de datos reasoning/non-reasoning es 50/50 con apriete progresivo de penalización KL.

Números Que Importan

En Jetson Orin Nano con GGUF de 4 bits (Q4_K_M), el modelo entrega 18 tokens/seg — dos veces más rápido que Nemotron Nano 9B v2 en el mismo hardware. La cuantización FP8 mediante ModelOpt mantiene recuperación del 100% de precisión mediana con hasta 1,8X mejora de latencia/throughput en comparación con BF16.

"La cuantización FP8 logró recuperación del 100% de precisión mediana

con hasta 1,8X mejora de latencia/throughput sobre BF16" — de la documentación técnica de NVIDIA.

En benchmarks clave, el modelo lidera entre competidores de su clase:

IFBench e IFEval — seguimiento de instrucciones
Orak — inteligencia de juego: Super Mario, Darkest Dungeon, Stardew Valley
Tool-use — invocación de herramientas y evitación de alucinaciones
TTFT — latencia mínima en secuencias de entrada largas

El modelo está disponible en tres variantes: BF16 (precisión completa), FP8 (optimizado para RTX y GPUs de servidor), GGUF Q4_K_M (para Jetson y Llama.cpp). Se soportan los motores vLLM, TRT-LLM y Hugging Face Transformers.

Lo Que Significa

Un modelo 4B con ventaja de velocidad 2X sobre 9B en Jetson cambia la ecuación de IA en edge: robótica, IoT, agentes locales y NPCs de juego obtienen una herramienta de nivel industrial sin hardware costoso y sin enviar datos a la nube. Los pesos abiertos permiten ajustar el modelo para un dominio específico sin restricciones de licencia.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita