Habr AI→ original

DeepSeek-V4-Pro Comprimido em 50x, Agora Rodando em um T4 Gratuito do Kaggle

Pesquisadores testaram executar DeepSeek-V4-Pro com 1,6 trilhões de parâmetros sem um cluster caro: o autor do projeto comprimiu pesos via SVD, processou…

Processado por IA de Habr AI; editado por Hamidun News
DeepSeek-V4-Pro Comprimido em 50x, Agora Rodando em um T4 Gratuito do Kaggle
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

O experimento com DeepSeek-V4-Pro demonstra que até mesmo um modelo da classe de 1,6 trilhão de parâmetros pode ser trazido a um estado funcional sem um cluster H100, se você abandonar a ideia de executá-lo em sua forma original. Em vez de uma inferência completa, o autor do projeto montou uma aproximação extremamente agressiva: comprimiu pesos através de decomposição de baixo rank, processou fragmentos gigantes através de transmissão contínua e adaptou manualmente a arquitetura para ferramentas existentes. O resultado está longe de ser production-ready, mas o mero fato de executar em uma T4 NVIDIA gratuita no Kaggle parece uma forte demonstração de quanto a matemática e a engenhosidade de engenharia importam hoje em dia.

A descrição original discute DeepSeek-V4-Pro, que o autor chama de um modelo MoE de 1,6 trilhão de parâmetros com pesos ultrapassando 800 GB. Para essa classe de sistemas, tipicamente é necessária uma infraestrutura completamente diferente: vários H100s, grandes quantidades de memória de vídeo, canais rápidos entre nós e espaço adequado em disco local. Diante disso, a escolha de uma instância Kaggle gratuita com uma T4 com 16 GB VRAM e aproximadamente 50 GB de disco parece não como uma tentativa de replicar uma execução padrão, mas como um experimento na beira da possibilidade.

O próprio enunciado do problema também é importante: não preservar o modelo em sua forma original, mas verificar quanto de estrutura útil pode ser retida após compressão radical. O movimento-chave no projeto é abandonar a quantização padrão de 4 bits em favor da transmutação SVD, ou seja, decomposição de baixo rank de matrizes de pesos. De acordo com a descrição do autor, um rank de 64 forneceu aproximadamente 50 vezes de compressão.

Esse esquema preserva as dependências principais entre parâmetros, mas descarta muitos detalhes e junto com eles parte da qualidade. Para um modelo gigante, esse é um trade-off áspero: a precisão cai, mas há uma chance de encaixar o sistema em hardware disponível. Em essência, isso não é mais o modelo original no sentido pleno, mas seu esqueleto matemático, que ainda é capaz de preservar parte do contexto e conexões associativas.

O segundo elemento importante é trabalhar com pesos em um modo de MLOps quase emergencial. Em vez de armazenar o conjunto inteiro de parâmetros localmente, o autor processou fragmentos sequencialmente através de safe_open: baixou um arquivo, extraiu o tensor necessário, comprimiu-o em RAM, enviou o resultado para o repositório e limpou completamente o cache antes do próximo passo. Isso permitiu contornar a limitação de disco um conjunto de pesos que em um cenário normal simplesmente não caberia em uma máquina gratuita.

É separadamente enfatizado que o consumo de RAM nunca ultrapassou 4 GB. Esse é um detalhe importante, porque em tais tarefas você esbarra não apenas em limitações de VRAM, mas também em logística de arquivos, quando o modelo fisicamente não pode ser descompactado sem truques intermediários. A terceira camada da construção é roubo de identidade arquitetural.

A biblioteca transformers, segundo o autor, ainda não suportava DeepSeek-V4, então a configuração teve que ser mascarada como DeepSeek-V2 e o roteamento MoE teve que ser separadamente patchado através de monkey patching. Do ponto de vista de engenharia, essa é uma técnica frágil: depende da versão das bibliotecas, formato de config e do design do roteador de especialistas. Mas é precisamente esse passo que mostra que algumas das limitações em torno de modelos grandes estão relacionadas não apenas a hardware, mas também à compatibilidade de ferramentas.

Se o stack ainda não conhece a nova arquitetura, os pesquisadores frequentemente precisam primeiro adaptar o framework ao modelo, e apenas depois lidar com a qualidade da saída. O resultado foi uma versão do modelo que, segundo o autor, cabe na memória de uma única T4 e pode manter contexto, mas notavelmente se degrada em qualidade. Entre os efeitos colaterais estão alucinações e mistura de russo, inglês e chinês em uma única resposta.

Isso torna o sistema um fraco candidato para cenários de produção confiável onde precisão, estabilidade e previsibilidade importam. Mas como prova de conceito, o projeto funciona: mostra que até mesmo modelos gigantescos open-weight não apenas podem ser discutidos em termos de data-centers, mas também divididos em configurações mais acessíveis, ainda que muito reduzidas. A principal conclusão aqui não é que a T4 de repente se tornou um substituto para clusters GPU modernos.

Ao contrário: o experimento mostra claramente o custo de tais compromissos e o limite além do qual executar um modelo significa não uma inferência completa, mas reconstrução em nível de pesquisa. Mas é precisamente tais projetos que avançam a prática de compressão, inferência aproximada e MLOps acessível. Quanto mais dessas soluções alternativas aparecerem, mais baixa será a barreira de entrada para aqueles que querem experimentar com modelos grandes sem um orçamento corporativo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…