Ollama y Open WebUI en un VPS sin GPU: análisis honesto de las limitaciones
Es posible ejecutar Ollama con Open WebUI en un VPS sin GPU. Harán falta 4+ núcleos y 8+ GB de RAM. La velocidad de respuesta es de entre 1,5 y 2 segundos por t
Procesado por IA desde Habr AI; editado por Hamidun News
Ollama y Open WebUI en VPS sin GPU: análisis honesto de las limitaciones
La experiencia práctica muestra: ejecutar un LLM local en VPS sin GPU es posible, pero requiere una evaluación honesta de los compromisos.
Qué Conseguirás
Open WebUI es una interfaz conveniente para modelos locales que funciona sin la nube. Ollama gestiona la carga de modelos y la memoria. En una VPS simple (2-4 núcleos de CPU, 4-8 GB de RAM) puedes ejecutar modelos más pequeños como Mistral 7B o Phi 3, pero la velocidad de respuesta no coincidirá con lo que estás acostumbrado con GPT.
Limitaciones Reales
En CPU, el modelo pensará más lentamente: un solo token podría generarse en uno-y-medio a dos segundos en lugar de decenas de milisegundos en GPU. Adecuado para experimentos, pero para chat de producción tienes que elegir entre velocidad y costo. RAM y CPU estarán al máximo, y las tareas concurrentes se ralentizarán.
Stack Mínimo
- VPS con mínimo de 4-6 núcleos, idealmente 8 GB de RAM (16 es mejor)
- Docker y docker-compose para aislamiento
- Ollama (descarga y cachea modelos)
- Open WebUI (interfaz para Ollama)
- Firewall y reverse proxy (Nginx) con Basic Auth son obligatorios
Elección Entre Local y Nube
Si ejecutas Ollama local, pagas por hardware una vez, luego solo por electricidad. Si llamas a una API (como OpenAI/Claude), pagas por solicitud, pero escalar es sin dolor. Para un prototipo o experimentos, local es más barato. Para un sistema de producción, generalmente cuesta más debido al tiempo de inactividad de CPU.
Qué Significa Esto
Los LLM locales se están volviendo más accesibles, pero "simplemente ejecuta Ollama" es realista solo si estás listo para limitaciones de velocidad. Para pequeños equipos que quieren controlar sus datos y no pagar por solicitud, funciona.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.