Nvidia Nemotron-Cascade-2 a été exécuté à domicile sur une GeForce RTX 3090, jusqu'à 150 tokens/s
Nemotron-Cascade-2-30B-AWQ a pu être exécuté localement dans une configuration domestique avec une GeForce RTX 3090 et atteindre 120 à 150 tokens par…
Traité par IA depuis Habr AI ; édité par Hamidun News
Un passionné de LLMs locaux a démontré que Nemotron-Cascade-2 avec 30 milliards de paramètres peut être utilisé à la maison sur une GeForce RTX 3090. Dans sa configuration, le modèle a délivré 120–150 tokens par seconde et a traité non seulement la programmation, mais aussi des tâches de physique, biologie et scénarios d'agents web.
Pourquoi avoir choisi Nemotron
L'auteur recherchait plus qu'un simple modèle local à essayer — il voulait un assistant permanent pour le travail quotidien. Les exigences étaient pratiques : haute vitesse de réponse, contexte long et stable, et logique digne de confiance sans révérifier chaque étape. La configuration maison pour cela était assez typique pour un passionné avancé : un PC compact avec 64 GB de RAM, Windows 11, WSL2 et une GeForce RTX 3090 externe avec 24 GB.
Dans ce contexte, Nemotron-Cascade-2-30B-A3B-AWQ s'est avéré être un compromis qui fonctionne vraiment. Le choix s'explique par l'architecture Mamba + MoE : une partie aide à traiter les requêtes longues plus rapidement, l'autre maintient une haute vitesse de génération. Le modèle a été exécuté via vLLM, ce qui a permis d'utiliser FP8 pour le cache KV et d'extraire notablement plus d'une carte graphique domestique que ce que proposent les scénarios de déploiement local plus simples.
- Qwen 3.5-35B ne rentrait pas dans 24 GB de mémoire avec une marge de contexte confortable
- Les variantes GGUF via Llama.cpp et LM Studio se sont avérées notablement plus lentes
- NIM dans une configuration AWQ appropriée n'a pas pu être trouvé
- Nemotron-Cascade-2 sous forme quantifiée a fourni le meilleur équilibre vitesse-qualité
Ce que les tests ont montré
Pour vérifier le modèle, il a été exécuté à travers une série de tâches dans AnythingLLM avec vLLM connecté. L'ensemble n'était pas un benchmark synthétique, mais un mélange de scénarios réels : un calcul de thermodynamique, une tâche de biologie sur la direction des brins d'ADN, l'écriture d'une fonction numpy pour calculer les angles de diffraction et des requêtes d'agents web via Playwright. Cet ensemble démontre bien si un LLM local convient au travail quotidien plutôt qu'à de simples réponses de chat.
Nemotron-Cascade-2 a mieux performé là où il devait maintenir une chaîne de raisonnement plutôt que simplement se souvenir d'un fait. Dans le problème de la glace, le modèle a correctement séparé le chauffage, la fusion et le chauffage ultérieur de l'eau, et dans le test de biologie, il a remarqué lui-même une erreur dans la logique intermédiaire et l'a corrigée au cours de la réponse. Dans la tâche Python, il n'a pas eu recours à des boucles imbriquées lentes, mais a immédiatement proposé la vectorisation via numpy et a pris en compte les erreurs d'arrondi.
Même les scénarios avec des agents web ont fonctionné, quoique notablement plus lentement que le Q&A typique.
Où les limitations sont apparues
Le principal problème technique s'est avéré ne pas être la mémoire ou la vitesse, mais le mode de raisonnement. En tentant de désactiver le raisonnement interne pour une sortie plus propre, le modèle a nettement perdu en qualité sur les tâches complexes. Cela s'est surtout manifesté là où il devait maintenir plusieurs étapes logiques à la fois, par exemple en biologie et dans les tâches avec agents.
"Ne le faites pas.
Le modèle devient instantanément 'débile'."
En conséquence, la solution optimale n'était pas de supprimer les blocs de pensée, mais de les analyser correctement. L'auteur a d'abord assemblé un simple proxy Python pour cela, puis a trouvé une option plus propre : le paramètre `--reasoning-parser deepseek_r1` dans vLLM. Après cela, la couche supplémentaire n'était plus nécessaire. Le résultat final pour la configuration maison semble solide : 120–150 tokens par seconde en génération et jusqu'à 210+ tokens par seconde en tenant compte du raisonnement. En même temps, tenter d'accélérer davantage le contexte via `--enforce-eager` a l'effet inverse — la vitesse chute tellement que ce mode perd son intérêt.
Ce que cela signifie
Le cas montre que les modèles locaux de 30B cessent d'être des jouets pour les passionnés avec quelques GPUs. Si vous sélectionnez correctement l'architecture, la quantification et la pile d'exécution, une seule RTX 3090 est déjà capable de fournir un outil fonctionnel pour le code, la RAG, les tâches scientifiques et les scénarios simples d'agents sans abonnement cloud.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.