Hugging Face Blog→ original

NVIDIA lanzó Nemotron 3 Nano 4B — un modelo híbrido compacto para ejecutarse en dispositivos

NVIDIA lanzó Nemotron 3 Nano 4B, un modelo de lenguaje compacto para ejecutarse directamente en dispositivos, sin depender de la nube. La arquitectura…

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
NVIDIA lanzó Nemotron 3 Nano 4B — un modelo híbrido compacto para ejecutarse en dispositivos
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA ha abierto el acceso a Nemotron 3 Nano 4B — un modelo de lenguaje compacto con 4 mil millones de parámetros, desarrollado específicamente para implementación edge en dispositivos Jetson, RTX GPU y DGX Spark. Este es el primer modelo 4B de NVIDIA construido sobre una arquitectura híbrida Mamba-Transformer con enfoque en consumo mínimo de memoria y alta velocidad de inferencia.

Arquitectura Híbrida de Nueva Generación

En el núcleo del Nemotron 3 Nano 4B hay una construcción de 42 capas: 21 bloques Mamba, 4 bloques Attention y 17 bloques MLP. Esta proporción es atípica para modelos de lenguaje de este tamaño — la mayoría de competidores se construyen exclusivamente sobre transformers. Las capas Mamba procesan secuencias largas con complejidad de memoria lineal, no cuadrática — esta es la principal fuente de eficiencia.

Los bloques Attention se colocan estratégicamente y preservan la precisión donde la comprensión global del contexto es crítica. En comparación con el modelo padre Nemotron Nano 9B v2, la dimensionalidad de embedding se redujo de 4.480 a 3.

136, el número de cabezas Mamba de 128 a 96, y el número de capas de 56 a 42. El resultado: la huella de VRAM más pequeña de la clase 4B cuando se prueba en RTX 4070 y latencia Time-to-First-Token récordmente baja para secuencias de entrada largas.

Cuatro Etapas de Entrenamiento

Nemotron 3 Nano 4B no es simplemente un modelo 9B reducido, sino un modelo con su propio pipeline de entrenamiento de cuatro etapas. La primera es compresión mediante Nemotron Elastic: búsqueda de arquitectura neural (NAS) con un router entrenado determinó exactamente dónde podar la red 9B. El router operaba en cuatro ejes: cabezas Mamba, dimensión oculta, canales FFN y profundidad del modelo. La segunda es destilación para recuperación de precisión:

  • Contexto corto (8K, 63B tokens): 70% datos post-entrenamiento + 30% preentrenamiento
  • Contexto largo (49K, 150B tokens): expansión de ventana para tareas complejas de razonamiento

La tercera es ajuste fino supervisado (SFT): dos etapas cubriendo matemáticas, código, ciencia, chat, tareas de agente y seguridad. La cuarta es aprendizaje por refuerzo de tres etapas a través de NeMo-RL: desde seguimiento de instrucciones de un solo turno hasta múltiples turnos con salidas JSON/XML y además invocación de función de herramientas. La proporción de datos reasoning/non-reasoning es 50/50 con apriete progresivo de penalización KL.

Números Que Importan

En Jetson Orin Nano con GGUF de 4 bits (Q4_K_M), el modelo entrega 18 tokens/seg — dos veces más rápido que Nemotron Nano 9B v2 en el mismo hardware. La cuantización FP8 mediante ModelOpt mantiene recuperación del 100% de precisión mediana con hasta 1,8X mejora de latencia/throughput en comparación con BF16.

"La cuantización FP8 logró recuperación del 100% de precisión mediana

con hasta 1,8X mejora de latencia/throughput sobre BF16" — de la documentación técnica de NVIDIA.

En benchmarks clave, el modelo lidera entre competidores de su clase:

  • IFBench e IFEval — seguimiento de instrucciones
  • Orak — inteligencia de juego: Super Mario, Darkest Dungeon, Stardew Valley
  • Tool-use — invocación de herramientas y evitación de alucinaciones
  • TTFT — latencia mínima en secuencias de entrada largas

El modelo está disponible en tres variantes: BF16 (precisión completa), FP8 (optimizado para RTX y GPUs de servidor), GGUF Q4_K_M (para Jetson y Llama.cpp). Se soportan los motores vLLM, TRT-LLM y Hugging Face Transformers.

Lo Que Significa

Un modelo 4B con ventaja de velocidad 2X sobre 9B en Jetson cambia la ecuación de IA en edge: robótica, IoT, agentes locales y NPCs de juego obtienen una herramienta de nivel industrial sin hardware costoso y sin enviar datos a la nube. Los pesos abiertos permiten ajustar el modelo para un dominio específico sin restricciones de licencia.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…