Ollama et LiteLLM : comment transformer un script Python en un chat LLM complet en console

Dans la deuxième partie du guide sur Ollama et LiteLLM, un simple script Python est transformé en chat LLM en console. Une boucle de conversation, un system prompt et une gestion basique des erreurs s’y ajoutent — le socle minimal sans lequel un assistant local ne donne pas l’impression d’être une application. Il ne s’agit plus d’une requête ponctuelle au modèle, mais d’une base pour une interface interactive et de nouvelles expérimentations autour de l’AI local.

Khamidun Zhemal

Veille IA · Habr AI

30 avr. 2026· 2 min

Traité par IA depuis Habr AI ; édité par Hamidun News

Ollama et LiteLLM : comment transformer un script Python en un chat LLM complet en console — Source : Habr AI. Collage: Hamidun News.

◐ Écouter l'article

Du script au chat

La première étape ici n'est pas de changer le modèle, mais de changer le scénario d'utilisation. Une requête unique est bonne pour vérifier que la combinaison Python, Ollama et LiteLLM fonctionne réellement. Mais dès que vous voulez poser une question de clarification, changer la formulation ou poursuivre une pensée, un tel script atteint rapidement ses limites.

Un chat en console résout ce problème de la manière la plus directe : le programme ne s'arrête pas après une réponse, mais reste dans le dialogue et permet la communication avec le modèle comme un partenaire de conversation normal dans le terminal. Pour un développeur, c'est un tournant important. Au lieu de « j'ai appelé l'API — j'ai obtenu du texte », il y a une interface minimale d'application : entrée utilisateur, historique des messages, réponse du modèle et la logique les gérant.

LiteLLM est pratique ici comme une couche unique pour accéder aux modèles, et Ollama couvre l'exécution locale. En résultat, même un petit projet éducatif commence à ressembler à un vrai produit que vous pouvez déjà exécuter, tester et progressivement compliquer sans refondre complètement la base.

Ce qui apparaît dans le code

La couche suivante comprend les détails qui font que le chat n'est pas simplement une boucle entrée/sortie, mais un programme géré. Dans de tels exemples, ce qui est particulièrement précieux, ce ne sont pas les caractéristiques « magiques », mais les éléments d'ingénierie basiques : qui définit le rôle du modèle, où le contexte est stocké et ce qui se passe si la requête échoue. C'est à partir de ceux-ci que vous avez la sensation de regarder non une démo de cinq minutes, mais un modèle fonctionnel pour un assistant local.

Une boucle de conversation qui accepte les nouveaux messages jusqu'à une commande de sortie
System prompt qui établit le rôle, le ton et les limites comportementales du modèle
Une liste de messages pour que le modèle voie les échanges précédents et maintienne le contexte
Validation de base de l'entrée pour éviter d'envoyer des requêtes vides
Gestion des exceptions pour que le programme ne plante pas après le premier échec

Chacun de ces points semble simple, mais ensemble, ils changent la qualité de l'interaction. System prompt est nécessaire non seulement pour le « caractère » du bot : par son intermédiaire, vous pouvez convenablement établir des règles de réponse, le format, la langue et les limitations. L'historique des messages permet une conversation cohérente plutôt que de réexpliquer la tâche à chaque tour. La gestion des erreurs économise du temps lors du débogage : si le modèle local se fige, Ollama ne s'exécute pas ou LiteLLM retourne une exception, la session n'est pas complètement perdue.

Premiers pas vers une application

Il est particulièrement important de penser aux premiers pas vers une application d'IA « vivante ». Une interface console semble modeste, mais c'est le moyen le plus facile de vérifier comment le bot se comporte dans un dialogue réel, où l'utilisateur formule des pensées imparfaitement, pose des clarifications et change constamment de contexte. Les points faibles deviennent rapidement apparents : system prompt trop général, format de sortie peu pratique, manque de commandes pour quitter ou redémarrer, erreurs peu claires lors du chargement du modèle.

Un tel cadre est facile à étendre davantage sans architecture supplémentaire. Au-dessus, vous pouvez ajouter le streaming de tokens, des commandes séparées comme /clear pour réinitialiser l'historique, le changement de modèles, la journalisation des dialogues ou l'intégration d'outils. Mais la valeur de l'étape actuelle est différente : l'auteur montre qu'une interface utile commence non par une GUI et non par une application web, mais par une boucle de communication fiable dans le terminal.

Si cette couche est faite soigneusement, il est plus facile de croître davantage à la fois vers un produit et vers des expériences.

Ce que cela signifie

Pour ceux qui construisent des outils d'IA locaux en Python, cette étape est obligatoire. La combinaison Ollama et LiteLLM devient intéressante non au moment de la première réponse réussie, mais quand une boucle de communication normale apparaît autour du modèle. Un chat en console est la forme minimale d'une telle boucle : assez simple pour commencer et assez utile pour construire la couche fonctionnelle suivante dessus.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 50 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Réserver une consultation gratuite →

Ollama et LiteLLM : comment transformer un script Python en un chat LLM complet en console

Ce qui apparaît dans le code

Premiers pas vers une application

Ce que cela signifie

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

L'essentiel de l'IA — une fois par semaine