Ollama и Open WebUI на VPS без GPU: честный разбор ограничений
На VPS без видеокарты реально запустить Ollama с Open WebUI. Понадобятся 4+ ядра и 8+ GB RAM. Скорость ответов в полтора-две секунды на токен, а не миллисекунды

Практический опыт показывает: запустить локальный LLM на VPS без GPU реально, но нужна честная оценка компромиссов.
Что получится Open WebUI — удобный интерфейс для локальных моделей, работает без облака.
Ollama управляет загрузкой и памятью. На простом VPS (2-4 ядра CPU, 4-8 GB RAM) можно запустить небольшие модели вроде Mistral 7B или Phi 3, но скорость ответов — не то, к чему привыкли с GPT.
Реальные ограничения
На CPU модель будет думать медленнее: один токен может генерироваться полторы-две секунды вместо десятков миллисекунд на GPU. Для экспериментов подходит, для промышленного чата — приходится выбирать между скоростью и ценой. RAM и CPU будут забиты под завязку, конкурирующие задачи замедлятся.
Минимальный стек * VPS минимум 4-6 ядер, желательно 8 GB RAM (16 лучше) *
Docker и docker-compose для изоляции Ollama (скачивает и кеширует модели) Open WebUI (фронтенд к Ollama) * Обязательно firewall и reverse proxy (Nginx) с Basic Auth ## Выбор между локалью и облаком Если запускаешь локальный Ollama — платишь за железо один раз, потом только за электричество. Если зовёшь API (типа OpenAI/Claude) — платишь за каждый запрос, но масштабируется без боли. Для прототипа или экспериментов — локаль экономнее. Для боевой системы — обычно выходит дороже из-за простоя CPU.
Что это значит
Локальные LLM становятся доступнее, но «просто запусти Ollama» — реальна только если ты готов к ограничениям по скорости. Для небольших команд, которые хотят контролировать свои данные и не платить за каждый запрос, это работает.