Ollama y LiteLLM: Habr mostró cómo ejecutar un chat LLM local en Python sin nube
Ha surgido una guía clara para iniciarse en desarrollo de LLM local en Python. Detalla paso a paso la instalación de Ollama, ejecución del modelo qwen2.5…
Procesado por IA desde Habr AI; editado por Hamidun News
En Habr se publicó una guía introductoria detallada para desarrollo local de LLM en Python. El autor sugiere comenzar no con APIs en la nube, sino con la combinación Ollama y LiteLLM: instala un modelo en tu propio computador, configura el entorno y obtén tu primera respuesta directamente desde main.py.
Por qué local
La mayoría de los materiales introductorios sobre LLMs llevan al principiante a la nube en el primer paso: regístrate, obtén una clave de API, adjunta una tarjeta de crédito, monitorea límites. Para un desarrollador que solo quiere entender la mecánica básica, este es ruido innecesario. La nueva guía ofrece una ruta diferente: primero configura todo localmente para que puedas ver la lógica del modelo sin facturación, servicios externos y miedo a gastar dinero accidentalmente en pruebas.
Este enfoque es aún mejor porque hace que todo el flujo de solicitud sea transparente. En el artículo, literalmente desglosan la cadena eslabón por eslabón: el código Python envía un mensaje a LiteLLM, que lo pasa a Ollama, y Ollama se comunica con el modelo local y devuelve la respuesta nuevamente al programa. Este análisis es útil no solo para principiantes.
Ayuda a encontrar rápidamente dónde buscar un problema si el modelo no responde, el servicio no se ejecuta o el código apunta a la dirección incorrecta.
"Esto no es 'magia de IA', sino un flujo de software ordinario."
Qué hay en la pila
El autor inmediatamente divide los roles de las herramientas, porque es fácil confundirlas. Ollama es responsable de ejecutar el modelo local y acceder a él a través de un servidor local. LiteLLM es una biblioteca Python con una interfaz unificada para llamar modelos. Gracias a esto, el código que hoy funciona con un modelo local puede transferirse posteriormente de manera relativamente sencilla a un proveedor en la nube sin reescribir la aplicación desde cero. Para una primera introducción, este es un compromiso práctico entre simplicidad y preparación para el futuro.
La primera parte de la serie está estructurada como una ruta sin teoría innecesaria. No se pide a los lectores que diseñen agentes, conecten memoria o construyan una interfaz compleja de inmediato. La tarea es más simple y más útil: asegurar que el modelo local funcione, que Python pueda alcanzarlo y que la respuesta vuelva al código sin infraestructura externa. Por esto, el material se lee como una lista de verificación funcional para una primera noche, no como una descripción general abstracta de tecnologías.
- instala Ollama para Windows, macOS o Linux;
- descarga el modelo qwen2.5:3b y verifica la respuesta directamente en la terminal;
- si tu hardware es débil, cambia a qwen2.5:1.5b;
- crea un entorno virtual de Python e instala LiteLLM;
- escribe un main.py mínimo que envíe una solicitud a http://localhost:11434.
Un punto adicional es la elección del modelo para comenzar. qwen2.5:3b se presenta como una opción compacta y suficientemente conveniente para una laptop ordinaria, especialmente si necesitas compatibilidad con el idioma ruso. Si los recursos son limitados, el autor proporciona inmediatamente un escenario alternativo con una versión más ligera. Esto hace que el material no sea abstracto, sino fundamentado: el artículo no promete milagros, sino que ayuda a llegar realmente a la primera respuesta funcional sin ajustes exhaustivos de configuración desde el principio.
Primera llamada desde Python
El momento clave del texto es un ejemplo mínimo en Python. Importa la función completion de LiteLLM, especifica el modelo en el formato ollama_chat/qwen2.5:3b, indica el api_base local y pasa la pregunta del usuario a la lista messages.
Este es un detalle importante: incluso una única solicitud se formatea en la misma estructura que un diálogo futuro. Esencialmente, el autor no solo muestra una llamada única, sino que inmediatamente establece la base para un chat de consola con historial de mensajes y contexto. También es útil que el artículo no termine en el camino feliz.
Al final, se analizan fallos típicos: Connection refused si Ollama no está ejecutándose; Model not found si el nombre del modelo en el código no coincide con el instalado; respuesta muy larga debido a la carga del modelo en memoria; ModuleNotFoundError si el paquete se instaló en el entorno incorrecto; problemas de codificación en PowerShell. Para un desarrollador principiante, tal sección a menudo es más valiosa que la teoría, porque son estos pequeños detalles los que rompen la mayoría de los primeros experimentos. El autor ya ha esbozado la continuación de la serie: en la segunda parte, construirán un pequeño chat de consola a partir de una única solicitud, luego agregarán historial de mensajes y contexto.
Es decir, no es un fragmento disperso, sino una entrada cuidadosa en una ruta más larga — desde la ejecución local del modelo hasta una aplicación completa. Este formato es especialmente útil para quienes desean no solo ejecutar una demo, sino transformar gradualmente un LLM en parte de un proyecto Python ordinario.
Qué significa esto
El interés en modelos locales está creciendo nuevamente, y tales materiales reducen la barrera de entrada mejor que cualquier descripción general. La combinación Ollama y LiteLLM muestra que un primer prototipo funcional puede armarse sin la nube y claves de API, y luego cuando se desee, la misma arquitectura puede escalarse adelante. Para desarrolladores de habla rusa, este es un buen puente entre la curiosidad sobre LLMs y código real. Son exactamente este tipo de instrucciones las que con mayor frecuencia transforman el interés en práctica.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.