Como Executar DeepSeek no Seu Servidor: Memória, Configs e Privacidade Total
Cansado de confiar suas requisições a APIs públicas? É hora de implantar DeepSeek no seu próprio servidor em nuvem. O modelo 7B em formato Q4 requer apenas…
Processado por IA de Habr AI; editado por Hamidun News
Serviços LLM públicos são convenientes, mas têm uma falha sistêmica — você não sabe o que acontece com seus dados. DeepSeek pode ser implantado no seu próprio servidor em nuvem: conversas permanecem apenas com você, banimentos regionais não existem e a previsibilidade de preços se torna a norma.
Por que migrar para seu próprio servidor
O problema com APIs públicas vai além do custo. Mesmo em planos pagos, você está essencialmente enviando requisições para infraestrutura de terceiros sem garantias de privacidade. Alibaba, OpenAI e outros fornecedores têm suas próprias políticas de uso de dados — e você não tem controle sobre o que acontece com seus dados nos servidores deles. Algumas empresas incluem explicitamente em seus Termos de Serviço o direito de usar conversas para treinamento adicional se não for explicitamente desabilitado. Adicione censura rigorosa em alguns modelos — onde respostas para requisições perfeitamente válidas ficam indisponíveis sem explicação — e bloqueios geo-repentinos, e você tem um processo de negócio vinculado a uma API pública que se torna vulnerável a decisões externas do fornecedor.
Self-hosted resolve todos esses problemas:
- Privacidade: requisições nunca saem de sua infraestrutura
- Sem censura: o modelo funciona sem restrições externas de conteúdo
- Sem blocos regionais: serviço é acessível de qualquer país
- Custos previsíveis: pague apenas pela instância em nuvem, sem surpresas de tarifas
- Controle total: fine-tuning, retreinamento, integração nos seus próprios produtos
Requisitos de memória e hardware
O parâmetro-chave ao escolher uma configuração é o volume de VRAM. Depende do tamanho do modelo e do nível de quantização. DeepSeek-R1 na variante 7B em formato Q4 requer cerca de 6-8 GB de VRAM — até uma GPU em nuvem econômica pode lidar com isso.
A versão 14B ocupa 10-12 GB, 32B — cerca de 20 GB. DeepSeek-V3 completo com 685 bilhões de parâmetros em quantização de 8 bits exigirá centenas de gigabytes — já é território de clusters GPU. Para a maioria dos cenários de trabalho, as variantes 7B ou 14B são ótimas: um equilíbrio razoável entre qualidade de resposta e custo de infraestrutura.
Executar em CPU é possível, mas significativamente mais lento — o mínimo recomendado é 32 GB de RAM e armazenamento NVMe rápido. Quantização Q4 reduz requisitos de memória aproximadamente pela metade em comparação com FP16 com perda mínima de qualidade.
Como configurar
O caminho mais simples é Ollama. Instala em um comando no Linux, macOS ou Windows; o modelo é baixado via `ollama pull deepseek-r1:7b`. O serviço automaticamente inicia uma API REST na porta 11434 com interface compatível com OpenAI — Open WebUI, Cursor, n8n e a maioria dos clientes populares se conectam sem configuração adicional. Para produção com altas cargas, vLLM é mais adequado: suporta batching, requisições paralelas e múltiplas GPUs simultaneamente. llama.cpp oferece máxima flexibilidade — funciona em qualquer plataforma, suporta todos os formatos de quantização GGUF e consome recursos mínimos. Ambas as opções oferecem uma API compatível com OpenAI.
Vários parâmetros são críticos desde o primeiro lançamento:
- `context_length` — configure para suas tarefas; o valor padrão é frequentemente insuficiente para conversas longas
- `num_threads` — para modo CPU, configure igual ao número de núcleos físicos, não lógicos
- `gpu_layers` — número de camadas do modelo descarregadas para GPU; requer ajuste experimental
- `temperature` e `top_p` — afetam o determinismo das respostas, importante para produção
"A principal vantagem de LLM self-hosted é a previsibilidade.
Sem surpresas com acesso cortado, mudanças de política inesperadas ou censura na próxima atualização."
O que isso significa
Self-hosting LLM não é mais domínio de entusiastas. Implantar DeepSeek em um servidor em nuvem hoje é uma tarefa de poucas horas mesmo sem experiência profunda em DevOps. Para empresas que trabalham com dados confidenciais, não é mais uma alternativa às APIs públicas — é uma necessidade prática.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.