Nvidia Nemotron-Cascade-2 foi executado em casa em uma GeForce RTX 3090 a até 150 tokens/s

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-02. Время чтения: 3 мин.

O Nemotron-Cascade-2-30B-AWQ conseguiu ser executado localmente em um setup doméstico com GeForce RTX 3090 e atingir 120–150 tokens por segundo, e até 210+ com

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-05-02· 2 мин

◐ Слушать статью

Энтузиаст локальных LLM показал, что 30-миллиардную Nemotron-Cascade-2 можно использовать дома на GeForce RTX 3090. В его конфигурации модель выдала 120–150 токенов в секунду и справилась не только с кодингом, но и с задачами на физику, биологию и работу веб-агентов.

Почему выбрали

Nemotron Автор искал не просто локальную модель «на попробовать», а постоянного помощника для ежедневной работы. Требования были практичными: высокая скорость ответа, длинный и устойчивый контекст, а также логика, которой можно доверять без перепроверки каждого шага. Домашний сетап для этого был довольно типичным для продвинутого энтузиаста: компактный ПК с 64 ГБ оперативной памяти, Windows 11, WSL2 и внешняя GeForce RTX 3090 на 24 ГБ. На этом фоне Nemotron-Cascade-2-30B-A3B-AWQ оказался компромиссом, который действительно работает. Выбор объясняется архитектурой Mamba + MoE: одна часть помогает быстрее обрабатывать длинные запросы, другая — держать высокую скорость генерации. Модель запускали через vLLM, что позволило использовать FP8 для KV-кэша и выжать из домашней видеокарты заметно больше, чем дают более простые сценарии локального запуска.

Qwen 3.5-35B не поместился в память 24 ГБ с нормальным запасом под контекст GGUF-варианты через Llama.cpp и LM Studio оказались заметно медленнее NIM в подходящей AWQ-конфигурации найти не удалось * Nemotron-Cascade-2 в квантованной версии дал лучший баланс скорости и качества ## Что показали тесты Для проверки модель прогнали через серию задач в AnythingLLM с подключенным vLLM. Набор был не синтетическим бенчмарком, а смесью реальных сценариев: расчёт в термодинамике, задача по биологии на направление цепей ДНК, написание numpy-функции для расчёта углов дифракции и веб-агентные запросы через Playwright. Такой набор хорошо показывает, годится ли локальная LLM для повседневной работы, а не только для коротких ответов в чате. Лучше всего Nemotron-Cascade-2 проявил себя там, где нужно не просто вспомнить факт, а удержать цепочку рассуждений. В задаче про лёд модель корректно разделила нагрев, плавление и последующий нагрев воды, а в биологическом тесте сама заметила ошибку в промежуточной логике и исправила её по ходу ответа. В Python-задаче она не ушла в медленные вложенные циклы, а сразу предложила векторизацию через numpy и учла погрешности округления. Даже сценарии с веб-агентами работали, хотя уже заметно медленнее обычного Q&A.

Где были ограничения

Главная техническая проблема оказалась не в памяти и не в скорости, а в режиме reasoning. При попытке отключить внутренние рассуждения ради более чистого вывода модель резко теряла качество на сложных задачах. Особенно это проявлялось там, где нужно держать несколько шагов логики сразу, например в биологии и задачах с агентами.

«Не делайте так.

Модель мгновенно „глупеет“». В итоге оптимальным решением стало не вырезать thinking-блоки, а правильно их парсить. Автор сначала собрал для этого простую Python-прокси, а затем нашёл более чистый вариант: параметр `--reasoning-parser deepseek_r1` в vLLM. После этого лишняя прослойка больше не понадобилась. Финальный результат для домашнего сетапа выглядит сильно: 120–150 токенов в секунду в генерации и до 210+ токенов в секунду с учётом размышлений. При этом попытка сильнее разогнать контекст через `--enforce-eager` даёт обратную сторону — скорость падает настолько, что теряется смысл такого режима.

Что это значит

Кейс показывает, что локальные 30B-модели перестают быть игрушкой для энтузиастов с несколькими GPU. Если правильно подобрать архитектуру, квантование и стек запуска, одна RTX 3090 уже способна дать рабочий инструмент для кода, RAG, научных задач и простых агентных сценариев без облачной подписки.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com