DeepSeek-V4-Pro Comprimido em 50x, Agora Rodando em um T4 Gratuito do Kaggle
Pesquisadores testaram executar DeepSeek-V4-Pro com 1,6 trilhões de parâmetros sem um cluster caro: o autor do projeto comprimiu pesos via SVD, processou…
Processado por IA de Habr AI; editado por Hamidun News
O experimento com DeepSeek-V4-Pro demonstra que até mesmo um modelo da classe de 1,6 trilhão de parâmetros pode ser trazido a um estado funcional sem um cluster H100, se você abandonar a ideia de executá-lo em sua forma original. Em vez de uma inferência completa, o autor do projeto montou uma aproximação extremamente agressiva: comprimiu pesos através de decomposição de baixo rank, processou fragmentos gigantes através de transmissão contínua e adaptou manualmente a arquitetura para ferramentas existentes. O resultado está longe de ser production-ready, mas o mero fato de executar em uma T4 NVIDIA gratuita no Kaggle parece uma forte demonstração de quanto a matemática e a engenhosidade de engenharia importam hoje em dia.
A descrição original discute DeepSeek-V4-Pro, que o autor chama de um modelo MoE de 1,6 trilhão de parâmetros com pesos ultrapassando 800 GB. Para essa classe de sistemas, tipicamente é necessária uma infraestrutura completamente diferente: vários H100s, grandes quantidades de memória de vídeo, canais rápidos entre nós e espaço adequado em disco local. Diante disso, a escolha de uma instância Kaggle gratuita com uma T4 com 16 GB VRAM e aproximadamente 50 GB de disco parece não como uma tentativa de replicar uma execução padrão, mas como um experimento na beira da possibilidade.
O próprio enunciado do problema também é importante: não preservar o modelo em sua forma original, mas verificar quanto de estrutura útil pode ser retida após compressão radical. O movimento-chave no projeto é abandonar a quantização padrão de 4 bits em favor da transmutação SVD, ou seja, decomposição de baixo rank de matrizes de pesos. De acordo com a descrição do autor, um rank de 64 forneceu aproximadamente 50 vezes de compressão.
Esse esquema preserva as dependências principais entre parâmetros, mas descarta muitos detalhes e junto com eles parte da qualidade. Para um modelo gigante, esse é um trade-off áspero: a precisão cai, mas há uma chance de encaixar o sistema em hardware disponível. Em essência, isso não é mais o modelo original no sentido pleno, mas seu esqueleto matemático, que ainda é capaz de preservar parte do contexto e conexões associativas.
O segundo elemento importante é trabalhar com pesos em um modo de MLOps quase emergencial. Em vez de armazenar o conjunto inteiro de parâmetros localmente, o autor processou fragmentos sequencialmente através de safe_open: baixou um arquivo, extraiu o tensor necessário, comprimiu-o em RAM, enviou o resultado para o repositório e limpou completamente o cache antes do próximo passo. Isso permitiu contornar a limitação de disco um conjunto de pesos que em um cenário normal simplesmente não caberia em uma máquina gratuita.
É separadamente enfatizado que o consumo de RAM nunca ultrapassou 4 GB. Esse é um detalhe importante, porque em tais tarefas você esbarra não apenas em limitações de VRAM, mas também em logística de arquivos, quando o modelo fisicamente não pode ser descompactado sem truques intermediários. A terceira camada da construção é roubo de identidade arquitetural.
A biblioteca transformers, segundo o autor, ainda não suportava DeepSeek-V4, então a configuração teve que ser mascarada como DeepSeek-V2 e o roteamento MoE teve que ser separadamente patchado através de monkey patching. Do ponto de vista de engenharia, essa é uma técnica frágil: depende da versão das bibliotecas, formato de config e do design do roteador de especialistas. Mas é precisamente esse passo que mostra que algumas das limitações em torno de modelos grandes estão relacionadas não apenas a hardware, mas também à compatibilidade de ferramentas.
Se o stack ainda não conhece a nova arquitetura, os pesquisadores frequentemente precisam primeiro adaptar o framework ao modelo, e apenas depois lidar com a qualidade da saída. O resultado foi uma versão do modelo que, segundo o autor, cabe na memória de uma única T4 e pode manter contexto, mas notavelmente se degrada em qualidade. Entre os efeitos colaterais estão alucinações e mistura de russo, inglês e chinês em uma única resposta.
Isso torna o sistema um fraco candidato para cenários de produção confiável onde precisão, estabilidade e previsibilidade importam. Mas como prova de conceito, o projeto funciona: mostra que até mesmo modelos gigantescos open-weight não apenas podem ser discutidos em termos de data-centers, mas também divididos em configurações mais acessíveis, ainda que muito reduzidas. A principal conclusão aqui não é que a T4 de repente se tornou um substituto para clusters GPU modernos.
Ao contrário: o experimento mostra claramente o custo de tais compromissos e o limite além do qual executar um modelo significa não uma inferência completa, mas reconstrução em nível de pesquisa. Mas é precisamente tais projetos que avançam a prática de compressão, inferência aproximada e MLOps acessível. Quanto mais dessas soluções alternativas aparecerem, mais baixa será a barreira de entrada para aqueles que querem experimentar com modelos grandes sem um orçamento corporativo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.