Habr AI→ original

Nvidia Nemotron-Cascade-2 foi executado em casa em uma GeForce RTX 3090 a até 150 tokens/s

O Nemotron-Cascade-2-30B-AWQ conseguiu ser executado localmente em um setup doméstico com GeForce RTX 3090 e atingir 120–150 tokens por segundo, e até 210+…

Processado por IA de Habr AI; editado por Hamidun News
Nvidia Nemotron-Cascade-2 foi executado em casa em uma GeForce RTX 3090 a até 150 tokens/s
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um entusiasta de LLMs locais demonstrou que o Nemotron-Cascade-2 de 30 bilhões de parâmetros pode ser usado em casa em uma GeForce RTX 3090. Em sua configuração, o modelo entregou 120–150 tokens por segundo e lidou não apenas com codificação, mas também com tarefas de física, biologia e cenários de agentes web.

Por que escolheram o Nemotron

O autor procurava mais do que apenas um modelo local para experimentar — queria um assistente permanente para o trabalho diário. Os requisitos eram práticos: alta velocidade de resposta, contexto longo e estável, e lógica em que se pudesse confiar sem revisar cada passo. A configuração caseira para isso era bastante típica para um entusiasta avançado: um PC compacto com 64 GB de RAM, Windows 11, WSL2 e uma GeForce RTX 3090 externa com 24 GB.

Nesse cenário, o Nemotron-Cascade-2-30B-A3B-AWQ se mostrou um compromisso que realmente funciona. A escolha é explicada pela arquitetura Mamba + MoE: uma parte ajuda a processar requisições longas mais rapidamente, a outra mantém alta velocidade de geração. O modelo foi executado através de vLLM, o que permitiu usar FP8 para o cache KV e extrair notavelmente mais de uma placa gráfica caseira do que oferecem cenários mais simples de implantação local.

  • Qwen 3.5-35B não coube em 24 GB de memória com margem de contexto confortável
  • Variantes GGUF através de Llama.cpp e LM Studio se mostraram notavelmente mais lentas
  • NIM em configuração AWQ adequada não pôde ser encontrado
  • Nemotron-Cascade-2 em forma quantizada forneceu o melhor equilíbrio de velocidade e qualidade

O que os testes mostraram

Para verificar o modelo, foi executado através de uma série de tarefas no AnythingLLM com vLLM conectado. O conjunto não era um benchmark sintético, mas uma mistura de cenários do mundo real: um cálculo de termodinâmica, uma tarefa de biologia sobre direção de fitas de DNA, escrever uma função numpy para calcular ângulos de difração e requisições de agentes web via Playwright. Essa mistura demonstra bem se um LLM local é adequado para trabalho cotidiano em vez de apenas respostas breves em chat.

O Nemotron-Cascade-2 teve melhor desempenho onde precisava manter uma cadeia de raciocínio em vez de apenas recuperar um fato. No problema do gelo, o modelo separou corretamente aquecimento, fusão e aquecimento subsequente da água, e no teste de biologia notou por si mesmo um erro na lógica intermediária e o corrigiu durante a resposta. Na tarefa Python, não recorreu a ciclos aninhados lentos, mas imediatamente propôs vetorização através de numpy e levou em conta erros de arredondamento.

Mesmo cenários com agentes web funcionaram, embora notavelmente mais lento que Q&A típico.

Onde as limitações apareceram

O principal problema técnico se mostrou não ser memória ou velocidade, mas o modo de raciocínio. Ao tentar desabilitar o raciocínio interno para uma saída mais limpa, o modelo perdeu acentuadamente qualidade em tarefas complexas. Isso foi especialmente aparente onde precisava manter vários passos lógicos de uma vez, por exemplo em biologia e tarefas com agentes.

"Não faça isso. O modelo instantaneamente fica 'burro'."

Como resultado, a solução ótima não foi eliminar os blocos de raciocínio, mas analisá-los corretamente. O autor primeiro montou um proxy Python simples para isso, depois encontrou uma opção mais limpa: o parâmetro `--reasoning-parser deepseek_r1` em vLLM. Depois disso, a camada extra não foi mais necessária. O resultado final para a configuração caseira se vê forte: 120–150 tokens por segundo em geração e até 210+ tokens por segundo incluindo raciocínio. Ao mesmo tempo, tentar acelerar o contexto ainda mais através de `--enforce-eager` tem o efeito oposto — a velocidade cai tanto que tal modo perde seu propósito.

O que isso significa

O caso mostra que modelos locais de 30B deixam de ser brinquedos para entusiastas com alguns GPUs. Se você selecionar corretamente a arquitetura, quantização e pilha de execução, uma única RTX 3090 já é capaz de fornecer uma ferramenta funcional para código, RAG, tarefas científicas e cenários simples de agentes sem uma assinatura na nuvem.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…