Nvidia Nemotron-Cascade-2 foi executado em casa em uma GeForce RTX 3090 a até 150 tokens/s
O Nemotron-Cascade-2-30B-AWQ conseguiu ser executado localmente em um setup doméstico com GeForce RTX 3090 e atingir 120–150 tokens por segundo, e até 210+…
Processado por IA de Habr AI; editado por Hamidun News
Um entusiasta de LLMs locais demonstrou que o Nemotron-Cascade-2 de 30 bilhões de parâmetros pode ser usado em casa em uma GeForce RTX 3090. Em sua configuração, o modelo entregou 120–150 tokens por segundo e lidou não apenas com codificação, mas também com tarefas de física, biologia e cenários de agentes web.
Por que escolheram o Nemotron
O autor procurava mais do que apenas um modelo local para experimentar — queria um assistente permanente para o trabalho diário. Os requisitos eram práticos: alta velocidade de resposta, contexto longo e estável, e lógica em que se pudesse confiar sem revisar cada passo. A configuração caseira para isso era bastante típica para um entusiasta avançado: um PC compacto com 64 GB de RAM, Windows 11, WSL2 e uma GeForce RTX 3090 externa com 24 GB.
Nesse cenário, o Nemotron-Cascade-2-30B-A3B-AWQ se mostrou um compromisso que realmente funciona. A escolha é explicada pela arquitetura Mamba + MoE: uma parte ajuda a processar requisições longas mais rapidamente, a outra mantém alta velocidade de geração. O modelo foi executado através de vLLM, o que permitiu usar FP8 para o cache KV e extrair notavelmente mais de uma placa gráfica caseira do que oferecem cenários mais simples de implantação local.
- Qwen 3.5-35B não coube em 24 GB de memória com margem de contexto confortável
- Variantes GGUF através de Llama.cpp e LM Studio se mostraram notavelmente mais lentas
- NIM em configuração AWQ adequada não pôde ser encontrado
- Nemotron-Cascade-2 em forma quantizada forneceu o melhor equilíbrio de velocidade e qualidade
O que os testes mostraram
Para verificar o modelo, foi executado através de uma série de tarefas no AnythingLLM com vLLM conectado. O conjunto não era um benchmark sintético, mas uma mistura de cenários do mundo real: um cálculo de termodinâmica, uma tarefa de biologia sobre direção de fitas de DNA, escrever uma função numpy para calcular ângulos de difração e requisições de agentes web via Playwright. Essa mistura demonstra bem se um LLM local é adequado para trabalho cotidiano em vez de apenas respostas breves em chat.
O Nemotron-Cascade-2 teve melhor desempenho onde precisava manter uma cadeia de raciocínio em vez de apenas recuperar um fato. No problema do gelo, o modelo separou corretamente aquecimento, fusão e aquecimento subsequente da água, e no teste de biologia notou por si mesmo um erro na lógica intermediária e o corrigiu durante a resposta. Na tarefa Python, não recorreu a ciclos aninhados lentos, mas imediatamente propôs vetorização através de numpy e levou em conta erros de arredondamento.
Mesmo cenários com agentes web funcionaram, embora notavelmente mais lento que Q&A típico.
Onde as limitações apareceram
O principal problema técnico se mostrou não ser memória ou velocidade, mas o modo de raciocínio. Ao tentar desabilitar o raciocínio interno para uma saída mais limpa, o modelo perdeu acentuadamente qualidade em tarefas complexas. Isso foi especialmente aparente onde precisava manter vários passos lógicos de uma vez, por exemplo em biologia e tarefas com agentes.
"Não faça isso. O modelo instantaneamente fica 'burro'."
Como resultado, a solução ótima não foi eliminar os blocos de raciocínio, mas analisá-los corretamente. O autor primeiro montou um proxy Python simples para isso, depois encontrou uma opção mais limpa: o parâmetro `--reasoning-parser deepseek_r1` em vLLM. Depois disso, a camada extra não foi mais necessária. O resultado final para a configuração caseira se vê forte: 120–150 tokens por segundo em geração e até 210+ tokens por segundo incluindo raciocínio. Ao mesmo tempo, tentar acelerar o contexto ainda mais através de `--enforce-eager` tem o efeito oposto — a velocidade cai tanto que tal modo perde seu propósito.
O que isso significa
O caso mostra que modelos locais de 30B deixam de ser brinquedos para entusiastas com alguns GPUs. Se você selecionar corretamente a arquitetura, quantização e pilha de execução, uma única RTX 3090 já é capaz de fornecer uma ferramenta funcional para código, RAG, tarefas científicas e cenários simples de agentes sem uma assinatura na nuvem.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.