Ollama e Open WebUI em um VPS sem GPU: análise honesta das limitações
É possível rodar Ollama com Open WebUI em um VPS sem GPU. São necessários 4+ núcleos e 8+ GB de RAM. A velocidade de resposta fica em 1,5 a 2 segundos por token
Processado por IA de Habr AI; editado por Hamidun News
Ollama e Open WebUI em VPS sem GPU: análise honesta das limitações
Experiência prática mostra: rodar um LLM local em VPS sem GPU é possível, mas requer uma avaliação honesta dos compromissos.
O Que Você Vai Conseguir
Open WebUI é uma interface conveniente para modelos locais que funciona sem a nuvem. Ollama gerencia carregamento de modelos e memória. Em uma VPS simples (2-4 núcleos de CPU, 4-8 GB de RAM) você pode rodar modelos menores como Mistral 7B ou Phi 3, mas a velocidade de resposta não vai corresponder ao que você está acostumado com GPT.
Limitações Reais
Em CPU, o modelo vai pensar mais lentamente: um único token pode ser gerado em uma-e-meia a duas segundos em vez de dezenas de milissegundos em GPU. Apropriado para experimentos, mas para chat em produção você tem que escolher entre velocidade e custo. RAM e CPU vão estar no máximo, e tarefas concorrentes vão ficar lentas.
Stack Mínimo
- VPS com mínimo de 4-6 núcleos, idealmente 8 GB de RAM (16 é melhor)
- Docker e docker-compose para isolamento
- Ollama (baixa e cacheia modelos)
- Open WebUI (interface para Ollama)
- Firewall e reverse proxy (Nginx) com Basic Auth são obrigatórios
Escolha Entre Local e Nuvem
Se você rodar Ollama local, paga pelo hardware uma vez, depois apenas por eletricidade. Se você chamar uma API (como OpenAI/Claude), paga por requisição, mas escalar é indolor. Para um protótipo ou experimentos, local é mais barato. Para um sistema em produção, geralmente custa mais por causa do tempo ocioso de CPU.
O Que Isto Significa
LLMs locais estão ficando mais acessíveis, mas "apenas rode Ollama" é realista apenas se você estiver pronto para limitações de velocidade. Para pequenas equipes que querem controlar seus dados e não pagar por requisição, funciona.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.