Habr AI→ original

Nvidia Nemotron-Cascade-2 se ejecutó en casa en una GeForce RTX 3090 a hasta 150 tokens/s

Nemotron-Cascade-2-30B-AWQ logró ejecutarse localmente en una configuración doméstica con GeForce RTX 3090 y alcanzar 120–150 tokens por segundo, y hasta…

Procesado por IA desde Habr AI; editado por Hamidun News
Nvidia Nemotron-Cascade-2 se ejecutó en casa en una GeForce RTX 3090 a hasta 150 tokens/s
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Un entusiasta de LLMs locales demostró que Nemotron-Cascade-2 de 30 mil millones de parámetros se puede usar en casa en una GeForce RTX 3090. En su configuración, el modelo entregó 120–150 tokens por segundo y manejó no solo codificación, sino también tareas de física, biología y escenarios de agentes web.

Por qué eligieron Nemotron

El autor buscaba más que solo un modelo local para experimentar: quería un asistente permanente para el trabajo diario. Los requisitos eran prácticos: alta velocidad de respuesta, contexto largo y estable, y lógica en la que pudiera confiar sin revisar cada paso. La configuración casera para esto era bastante típica para un entusiasta avanzado: una PC compacta con 64 GB de RAM, Windows 11, WSL2 y una GeForce RTX 3090 externa con 24 GB.

En este escenario, Nemotron-Cascade-2-30B-A3B-AWQ resultó ser un compromiso que realmente funciona. La elección se explica por la arquitectura Mamba + MoE: una parte ayuda a procesar solicitudes largas más rápidamente, la otra mantiene alta velocidad de generación. El modelo se ejecutó a través de vLLM, lo que permitió usar FP8 para la caché KV y extraer notablemente más de una tarjeta gráfica casera que lo que ofrecen escenarios más simples de implementación local.

  • Qwen 3.5-35B no cabía en 24 GB de memoria con margen de contexto cómodo
  • Las variantes GGUF a través de Llama.cpp y LM Studio resultaron notablemente más lentas
  • NIM en configuración AWQ adecuada no pudo encontrarse
  • Nemotron-Cascade-2 en forma cuantizada proporcionó el mejor equilibrio de velocidad y calidad

Lo que mostraron las pruebas

Para verificar el modelo, se ejecutó a través de una serie de tareas en AnythingLLM con vLLM conectado. El conjunto no era un benchmark sintético, sino una mezcla de escenarios del mundo real: un cálculo de termodinámica, una tarea de biología sobre dirección de cadenas de DNA, escribir una función numpy para calcular ángulos de difracción y solicitudes de agentes web vía Playwright. Esta mezcla demuestra bien si un LLM local es adecuado para el trabajo diario en lugar de solo respuestas breves en chat.

Nemotron-Cascade-2 funcionó mejor donde necesitaba mantener una cadena de razonamiento en lugar de solo recordar un hecho. En el problema del hielo, el modelo separó correctamente el calentamiento, la fusión y el calentamiento posterior del agua, y en la prueba de biología notó por sí mismo un error en la lógica intermedia y lo corrigió durante la respuesta. En la tarea Python, no recurrió a ciclos anidados lentos, sino que inmediatamente propuso vectorización a través de numpy y consideró errores de redondeo.

Incluso los escenarios con agentes web funcionaron, aunque notablemente más lento que el Q&A típico.

Donde aparecieron limitaciones

El principal problema técnico resultó no ser memoria o velocidad, sino el modo de razonamiento. Al intentar desactivar el razonamiento interno para una salida más limpia, el modelo perdió nitidamente calidad en tareas complejas. Esto fue especialmente evidente donde necesitaba mantener varios pasos lógicos a la vez, por ejemplo en biología y tareas con agentes.

"No hagas eso.

El modelo instantáneamente se vuelve 'tonto'."

Como resultado, la solución óptima no fue eliminar los bloques de razonamiento, sino analizarlos correctamente. El autor primero armó un proxy Python simple para esto, luego encontró una opción más limpia: el parámetro `--reasoning-parser deepseek_r1` en vLLM. Después de eso, la capa adicional ya no fue necesaria. El resultado final para la configuración casera se ve fuerte: 120–150 tokens por segundo en generación y hasta 210+ tokens por segundo incluyendo razonamiento. Al mismo tiempo, intentar acelerar aún más el contexto a través de `--enforce-eager` tiene el efecto opuesto: la velocidad cae tanto que ese modo pierde su propósito.

Qué significa esto

El caso muestra que los modelos locales de 30B dejan de ser juguetes para entusiastas con algunos GPUs. Si selecciona correctamente la arquitectura, cuantización y pila de tiempo de ejecución, una sola RTX 3090 ya es capaz de proporcionar una herramienta funcional para código, RAG, tareas científicas y escenarios simples de agentes sin una suscripción en la nube.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…