NVIDIA lanzó Nemotron 3 Nano 4B — un modelo híbrido compacto para ejecutarse en dispositivos
NVIDIA lanzó Nemotron 3 Nano 4B, un modelo de lenguaje compacto para ejecutarse directamente en dispositivos, sin depender de la nube. La arquitectura…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
NVIDIA ha abierto el acceso a Nemotron 3 Nano 4B — un modelo de lenguaje compacto con 4 mil millones de parámetros, desarrollado específicamente para implementación edge en dispositivos Jetson, RTX GPU y DGX Spark. Este es el primer modelo 4B de NVIDIA construido sobre una arquitectura híbrida Mamba-Transformer con enfoque en consumo mínimo de memoria y alta velocidad de inferencia.
Arquitectura Híbrida de Nueva Generación
En el núcleo del Nemotron 3 Nano 4B hay una construcción de 42 capas: 21 bloques Mamba, 4 bloques Attention y 17 bloques MLP. Esta proporción es atípica para modelos de lenguaje de este tamaño — la mayoría de competidores se construyen exclusivamente sobre transformers. Las capas Mamba procesan secuencias largas con complejidad de memoria lineal, no cuadrática — esta es la principal fuente de eficiencia.
Los bloques Attention se colocan estratégicamente y preservan la precisión donde la comprensión global del contexto es crítica. En comparación con el modelo padre Nemotron Nano 9B v2, la dimensionalidad de embedding se redujo de 4.480 a 3.
136, el número de cabezas Mamba de 128 a 96, y el número de capas de 56 a 42. El resultado: la huella de VRAM más pequeña de la clase 4B cuando se prueba en RTX 4070 y latencia Time-to-First-Token récordmente baja para secuencias de entrada largas.
Cuatro Etapas de Entrenamiento
Nemotron 3 Nano 4B no es simplemente un modelo 9B reducido, sino un modelo con su propio pipeline de entrenamiento de cuatro etapas. La primera es compresión mediante Nemotron Elastic: búsqueda de arquitectura neural (NAS) con un router entrenado determinó exactamente dónde podar la red 9B. El router operaba en cuatro ejes: cabezas Mamba, dimensión oculta, canales FFN y profundidad del modelo. La segunda es destilación para recuperación de precisión:
- Contexto corto (8K, 63B tokens): 70% datos post-entrenamiento + 30% preentrenamiento
- Contexto largo (49K, 150B tokens): expansión de ventana para tareas complejas de razonamiento
La tercera es ajuste fino supervisado (SFT): dos etapas cubriendo matemáticas, código, ciencia, chat, tareas de agente y seguridad. La cuarta es aprendizaje por refuerzo de tres etapas a través de NeMo-RL: desde seguimiento de instrucciones de un solo turno hasta múltiples turnos con salidas JSON/XML y además invocación de función de herramientas. La proporción de datos reasoning/non-reasoning es 50/50 con apriete progresivo de penalización KL.
Números Que Importan
En Jetson Orin Nano con GGUF de 4 bits (Q4_K_M), el modelo entrega 18 tokens/seg — dos veces más rápido que Nemotron Nano 9B v2 en el mismo hardware. La cuantización FP8 mediante ModelOpt mantiene recuperación del 100% de precisión mediana con hasta 1,8X mejora de latencia/throughput en comparación con BF16.
"La cuantización FP8 logró recuperación del 100% de precisión mediana
con hasta 1,8X mejora de latencia/throughput sobre BF16" — de la documentación técnica de NVIDIA.
En benchmarks clave, el modelo lidera entre competidores de su clase:
- IFBench e IFEval — seguimiento de instrucciones
- Orak — inteligencia de juego: Super Mario, Darkest Dungeon, Stardew Valley
- Tool-use — invocación de herramientas y evitación de alucinaciones
- TTFT — latencia mínima en secuencias de entrada largas
El modelo está disponible en tres variantes: BF16 (precisión completa), FP8 (optimizado para RTX y GPUs de servidor), GGUF Q4_K_M (para Jetson y Llama.cpp). Se soportan los motores vLLM, TRT-LLM y Hugging Face Transformers.
Lo Que Significa
Un modelo 4B con ventaja de velocidad 2X sobre 9B en Jetson cambia la ecuación de IA en edge: robótica, IoT, agentes locales y NPCs de juego obtienen una herramienta de nivel industrial sin hardware costoso y sin enviar datos a la nube. Los pesos abiertos permiten ajustar el modelo para un dominio específico sin restricciones de licencia.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.