Habr AI→ оригинал

How to Run DeepSeek on Your Server: Memory, Config, and Complete Privacy

Tired of trusting your queries to public APIs? It's time to deploy DeepSeek on your own cloud server. The 7B model in Q4 format requires just 6-8 GB VRAM, launc

How to Run DeepSeek on Your Server: Memory, Config, and Complete Privacy
Источник: Habr AI. Коллаж: Hamidun News.

Публичные LLM-сервисы удобны, но у них есть системный изъян — вы не знаете, что происходит с вашими данными. DeepSeek можно поднять на собственном облачном сервере: переписка остаётся только у вас, регионального бана не существует, а ценовая предсказуемость становится нормой.

Зачем переезжать на свой сервер Проблема публичных API не только в деньгах.

Даже на платных тарифах вы фактически передаёте запросы на чужую инфраструктуру без гарантий конфиденциальности. Alibaba, OpenAI и другие вендоры имеют собственные политики использования данных — и что с ними происходит на сервере, вы не контролируете. Часть компаний прямо прописывает в ToS право использовать переписку для дообучения, если это явно не отключено.

Добавьте сюда жёсткую цензуру в ряде моделей — когда ответ на вполне рабочий запрос недоступен без объяснений — и внезапные блокировки по геолокации. В результате бизнес-процесс, завязанный на публичный API, становится уязвимым к внешним решениям провайдера. Self-hosted решает все эти проблемы: Приватность: запросы не покидают вашу инфраструктуру Нет цензуры: модель работает без внешних ограничений контента Нет региональных блокировок: сервис доступен из любой страны Предсказуемые затраты: платите только за облачный инстанс, без сюрпризов с тарифами * Полный контроль: дообучение, fine-tuning, интеграция в собственные продукты ## Требования к памяти и железу Ключевой параметр при выборе конфигурации — объём видеопамяти.

Он зависит от размера модели и степени квантизации. DeepSeek-R1 в варианте 7B в формате Q4 требует около 6-8 GB VRAM — с этим справится даже бюджетный облачный GPU. Версия 14B занимает 10-12 GB, 32B — порядка 20 GB.

Полная DeepSeek-V3 с 685 миллиардами параметров в 8-битном квантовании потребует несколько сотен гигабайт — это уже территория GPU-кластеров. Для большинства рабочих сценариев оптимальны варианты 7B или 14B: разумный баланс между качеством ответов и стоимостью инфраструктуры. Запуск на CPU возможен, но значительно медленнее — рекомендуемый минимум 32 GB RAM и быстрый NVMe-диск.

Квантизация Q4 снижает требования к памяти примерно вдвое по сравнению с FP16 при минимальной потере качества.

Как запустить и настроить Самый простой путь — **Ollama**.

Устанавливается одной командой на Linux, macOS или Windows, модель скачивается через `ollama pull deepseek-r1:7b`. Сервис автоматически поднимает REST API на порту 11434 с OpenAI-совместимым интерфейсом — к нему без дополнительной конфигурации подключаются Open WebUI, Cursor, n8n и большинство популярных клиентов. Для продакшена с высокими нагрузками лучше подходит vLLM: поддерживает батчинг, параллельные запросы и несколько GPU одновременно.

llama.cpp даёт максимальную гибкость — работает на любой платформе, поддерживает все GGUF-форматы квантизации и потребляет минимум ресурсов. Оба варианта предоставляют OpenAI-совместимый API.

Несколько параметров, которые критичны с первого запуска: `context_length` — выставьте под свои задачи; дефолтное значение часто мало для длинных диалогов `num_threads` — для CPU-режима ставьте равным числу физических ядер, не логических `gpu_layers` — количество слоёв модели, выгружаемых в GPU; подбирается экспериментально `temperature` и `top_p` — влияют на детерминированность ответов, важно для продакшена > «Главное преимущество self-hosted LLM — предсказуемость. Никаких сюрпризов с отключением доступа, внезапной сменой политики или цензурой в очередном обновлении».

Что это значит Self-hosting LLM перестал быть уделом энтузиастов.

Поднять DeepSeek на облачном сервере сегодня — задача на несколько часов даже без глубокого DevOps-опыта. Для компаний, работающих с конфиденциальными данными, это уже не альтернатива публичным API, а практическая необходимость.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…