NVIDIA a lancé Nemotron 3 Nano 4B — un modèle hybride compact pour fonctionner sur les appareils

Q: Quelle est la source ?

Publication originale sur Hugging Face Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

NVIDIA a lancé Nemotron 3 Nano 4B, un modèle de langage compact conçu pour fonctionner directement sur les appareils, sans dépendre du cloud. Son…

Rédaction de Hamidun News

Veille IA · Hugging Face Blog

30 avr. 2026· 2 min

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News

NVIDIA a lancé Nemotron 3 Nano 4B — un modèle hybride compact pour fonctionner sur les appareils — Source : Hugging Face Blog. Collage: Hamidun News.

◐ Écouter l'article

NVIDIA a ouvert l'accès à Nemotron 3 Nano 4B — un modèle de langage compact avec 4 milliards de paramètres, développé spécifiquement pour le déploiement edge sur les appareils Jetson, RTX GPU et DGX Spark. Il s'agit du premier modèle 4B de NVIDIA construit sur une architecture hybride Mamba-Transformer avec un accent mis sur la consommation minimale de mémoire et la haute vitesse d'inférence.

Architecture Hybride de Nouvelle Génération

Au cœur de Nemotron 3 Nano 4B se trouve une construction de 42 couches : 21 blocs Mamba, 4 blocs Attention et 17 blocs MLP. Ce rapport est atypique pour les modèles de langage de cette taille — la plupart des concurrents sont construits exclusivement sur des transformers. Les couches Mamba traitent les longues séquences avec une complexité mémoire linéaire plutôt que quadratique — c'est la principale source d'efficacité.

Les blocs Attention sont placés stratégiquement et préservent la précision là où la compréhension globale du contexte est critique. Comparé au modèle parent Nemotron Nano 9B v2, la dimensionalité de l'embedding a été réduite de 4 480 à 3 136, le nombre de têtes Mamba de 128 à 96, et le nombre de couches de 56 à 42. Le résultat : l'empreinte VRAM la plus petite de la classe 4B lors des tests sur RTX 4070 et une latence Time-to-First-Token record-faible pour les longues séquences d'entrée.

Quatre Étapes d'Entraînement

Nemotron 3 Nano 4B n'est pas simplement un modèle 9B réduit, mais un modèle avec son propre pipeline d'entraînement de quatre étapes. La première est la compression via Nemotron Elastic : la recherche d'architecture neurale (NAS) avec un routeur entraîné a déterminé exactement où élaguer le réseau 9B. Le routeur opérait sur quatre axes : têtes Mamba, dimension cachée, canaux FFN et profondeur du modèle. La seconde est la distillation pour la récupération de précision :

Contexte court (8K, 63B tokens) : 70% données post-entraînement + 30% pré-entraînement
Contexte long (49K, 150B tokens) : expansion de la fenêtre pour les tâches complexes de raisonnement

La troisième est l'ajustement fin supervisé (SFT) : deux étapes couvrant les mathématiques, le code, la science, le chat, les tâches d'agent et la sécurité. La quatrième est l'apprentissage par renforcement à trois étapes via NeMo-RL : du suivi d'instruction à un seul tour aux multi-tours avec sorties JSON/XML et à l'appel de fonction d'outil. Le ratio données reasoning/non-reasoning est 50/50 avec une augmentation progressive de la pénalité KL.

Chiffres Qui Comptent

Sur Jetson Orin Nano avec GGUF 4 bits (Q4_K_M), le modèle fournit 18 tokens/sec — deux fois plus rapide que Nemotron Nano 9B v2 sur le même matériel. La quantification FP8 via ModelOpt maintient une récupération de précision médiane de 100% avec jusqu'à 1,8X d'amélioration de latence/débit par rapport à BF16.

«

La quantification FP8 a obtenu une récupération de précision médiane de 100% avec une amélioration de latence/débit jusqu'à 1,8X par rapport à BF16 » — de la documentation technique de NVIDIA.

Sur les benchmarks clés, le modèle domine parmi les concurrents de sa classe :

IFBench et IFEval — suivi des instructions
Orak — intelligence de jeu : Super Mario, Darkest Dungeon, Stardew Valley
Tool-use — invocation d'outil et évitement des hallucinations
TTFT — latence minimale sur les longues séquences d'entrée

Le modèle est disponible en trois variantes : BF16 (précision complète), FP8 (optimisé pour RTX et GPU serveur), GGUF Q4_K_M (pour Jetson et Llama.cpp). Les moteurs vLLM, TRT-LLM et Hugging Face Transformers sont supportés.

Ce Que Cela Signifie

Un modèle 4B avec un avantage de vitesse 2X sur 9B sur Jetson change l'équation de l'IA edge : la robotique, l'IoT, les agents locaux et les PNJ de jeu obtiennent un outil de qualité industrielle sans matériel coûteux et sans envoyer les données vers le cloud. Les poids ouverts permettent d'ajuster le modèle pour un domaine spécifique sans restrictions de licence.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite