Ollama e LiteLLM: como transformar um script Python em um chat LLM completo no console

Na segunda parte do guia sobre Ollama e LiteLLM, um script Python simples é transformado em um chat LLM no console. São adicionados um loop de conversa, um system prompt e tratamento básico de erros — a estrutura mínima sem a qual um assistente local não parece uma aplicação. Já não é uma chamada pontual ao modelo, mas uma base para uma interface interativa e novos experimentos com AI local.

Khamidun Zhemal

Monitoramento de AI · Habr AI

30 de abr. de 2026· 2 min

Processado por IA de Habr AI; editado por Hamidun News

Ollama e LiteLLM: como transformar um script Python em um chat LLM completo no console — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

Do script ao chat

O primeiro passo aqui não é mudar o modelo, mas mudar o cenário de uso. Uma requisição única é boa para verificar se a combinação Python, Ollama e LiteLLM realmente funciona. Mas assim que você quer fazer uma pergunta de esclarecimento, mudar a formulação ou continuar um pensamento, tal script rapidamente bate no teto.

Um chat em console resolve este problema da forma mais direta: o programa não sai após uma resposta, mas permanece no diálogo e permite comunicação com o modelo como um parceiro de conversa normal no terminal. Para um desenvolvedor, este é um ponto de virada importante. Em vez de "chamei a API — recebi texto" há uma interface mínima de aplicação: entrada do usuário, histórico de mensagens, resposta do modelo e a lógica gerenciando-os.

LiteLLM é conveniente aqui como uma camada única para acessar modelos, e Ollama cobre a execução local. Como resultado, até um pequeno projeto educacional começa a se parecer com um produto real que você já pode executar, testar e gradualmente complicar sem refazer completamente a base.

O que aparece no código

A próxima camada são os detalhes que tornam o chat não apenas um loop entrada/saída, mas um programa gerenciado. Em tais exemplos, o que é particularmente valioso não são recursos "mágicos", mas elementos básicos de engenharia: quem define o papel do modelo, onde o contexto é armazenado e o que acontece se a requisição quebra. É a partir desses que você tem a sensação de estar olhando para não um demo de cinco minutos, mas um modelo funcional para um assistente local.

Um loop de conversa que aceita novas mensagens até um comando de saída
System prompt que define o papel, tom e limites comportamentais do modelo
Uma lista de mensagens para o modelo ver trocas anteriores e manter contexto
Validação básica de entrada para evitar enviar requisições vazias
Tratamento de exceções para o programa não cair após a primeira falha

Cada um desses pontos parece simples, mas juntos mudam a qualidade da interação. System prompt é necessário não apenas para o "caráter" do bot: através dele você pode convenientemente definir regras de resposta, formato, idioma e limitações. Histórico de mensagens permite uma conversa coerente em vez de re-explicar a tarefa a cada turno. Tratamento de erros economiza tempo durante depuração: se o modelo local trava, Ollama não está rodando ou LiteLLM retorna uma exceção, a sessão não é completamente perdida.

Primeiros passos rumo a uma aplicação

É particularmente importante pensar sobre os primeiros passos rumo a uma aplicação "viva" de IA. Uma interface em console parece modesta, mas é a forma mais fácil de verificar como o bot se comporta em diálogo real, onde o usuário formula pensamentos imperfeitamente, faz esclarecimentos e constantemente muda contexto. Fraquezas rápido se tornam aparentes: prompt de sistema muito geral, formato de saída inconveniente, falta de comandos para sair ou reiniciar, erros pouco claros ao carregar o modelo.

Tal estrutura é fácil de estender mais sem arquitetura extra. Em cima dela você pode adicionar transmissão de tokens, comandos separados como /clear para resetar histórico, troca de modelos, log de diálogos ou integração de ferramentas. Mas o valor do passo atual é diferente: o autor mostra que uma interface útil começa não com uma GUI e não com um aplicativo web, mas com um loop de comunicação confiável no terminal.

Se esta camada é feita cuidadosamente, é mais fácil crescer mais tanto em direção a um produto quanto em direção a experimentos.

O que isso significa

Para aqueles construindo ferramentas de IA locais em Python, este estágio é obrigatório. A combinação Ollama e LiteLLM se torna interessante não no momento da primeira resposta bem-sucedida, mas quando um loop de comunicação normal aparece ao redor do modelo. Um chat em console é a forma mínima de tal loop: simples o suficiente para começar e útil o suficiente para construir a próxima camada de funcionalidade em cima.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 50 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

Agendar consultoria grátis →

Ollama e LiteLLM: como transformar um script Python em um chat LLM completo no console

O que aparece no código

Primeiros passos rumo a uma aplicação

O que isso significa

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

O essencial da IA — uma vez por semana