Ollama e LiteLLM: Habr mostrou como executar um chat LLM local em Python sem nuvem

Q: Qual é a fonte?

Publicado originalmente em Habr AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

30 de abr. de 2026. Tempo de leitura: 3 min.

Um guia inicial claro sobre desenvolvimento de LLM local em Python surgiu. Detalha passo a passo a instalação do Ollama, execução do modelo qwen2.5…

Redação da Hamidun News

Monitoramento de AI · Habr AI

30 de abr. de 2026· 3 min

Processado por IA de Habr AI; editado por Hamidun News

Ollama e LiteLLM: Habr mostrou como executar um chat LLM local em Python sem nuvem — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

No Habr foi publicado um guia introdutório detalhado para desenvolvimento local de LLM em Python. O autor sugere começar não com APIs na nuvem, mas com a combinação Ollama e LiteLLM: instale um modelo em seu próprio computador, configure o ambiente e obtenha sua primeira resposta direto do main.py.

Por que local

A maioria dos materiais introdutórios sobre LLMs leva o iniciante para a nuvem no primeiro passo: registre-se, obtenha uma chave de API, anexe um cartão de crédito, monitore limites. Para um desenvolvedor que apenas quer entender a mecânica básica, esse é ruído desnecessário. O novo guia oferece uma rota diferente: configure tudo localmente primeiro para que você possa ver a lógica do modelo sem faturamento, serviços externos e medo de gastar dinheiro acidentalmente em testes.

Essa abordagem é ainda melhor porque torna todo o fluxo de requisição transparente. No artigo, eles literalmente quebram a cadeia elo por elo: o código Python envia uma mensagem para o LiteLLM, que passa para o Ollama, e o Ollama conversa com o modelo local e retorna a resposta de volta para o programa. Essa análise é útil não apenas para iniciantes.

Ajuda a encontrar rapidamente onde procurar por um problema se o modelo não responde, o serviço não está rodando ou o código está apontando para o endereço errado.

"Isso não é 'mágica de IA', mas um fluxo de software comum."

O que está na pilha

O autor imediatamente divide os papéis das ferramentas, porque é fácil confundi-las. Ollama é responsável por executar o modelo local e acessá-lo através de um servidor local. LiteLLM é uma biblioteca Python com uma interface unificada para chamar modelos. Por isso, o código que hoje funciona com um modelo local pode depois ser transferido relativamente facilmente para um provedor na nuvem sem reescrever a aplicação do zero. Para uma primeira introdução, este é um compromisso prático entre simplicidade e preparação para o futuro.

A primeira parte da série é estruturada como uma rota sem teoria desnecessária. Aos leitores não é pedido imediatamente que projetem agentes, conectem memória ou construam uma interface complexa. A tarefa é mais simples e mais útil: garantir que o modelo local funcione, que Python consiga alcançá-lo e que a resposta volte para o código sem infraestrutura externa. Por isso, o material lê como um checklist funcional para uma primeira noite, não como uma visão geral abstrata de tecnologias.

instale o Ollama para Windows, macOS ou Linux;
baixe o modelo qwen2.5:3b e verifique a resposta direto no terminal;
se seu hardware for fraco, mude para qwen2.5:1.5b;
crie um ambiente virtual Python e instale o LiteLLM;
escreva um main.py mínimo que envia uma requisição para http://localhost:11434.

Um bônus separado é a escolha do modelo para começar. qwen2.5:3b é apresentado como uma opção compacta e suficientemente conveniente para um laptop comum, especialmente se você precisa de suporte à língua russa. Se os recursos são limitados, o autor imediatamente fornece um cenário de backup com uma versão mais leve. Isso torna o material não abstrato, mas fundamentado: o artigo não promete milagres, mas ajuda você a realmente chegar à primeira resposta funcional sem fiddling excessivo de configurações logo no início.

Primeira chamada do Python

O momento-chave do texto é um exemplo mínimo em Python. Ele importa a função completion do LiteLLM, especifica o modelo no formato ollama_chat/qwen2.5:3b, indica o api_base local e passa a pergunta do usuário para a lista messages.

Este é um detalhe importante: mesmo uma única requisição é formatada na mesma estrutura de um diálogo futuro. Essencialmente, o autor não apenas mostra uma chamada única, mas imediatamente estabelece a base para um chat de console com histórico de mensagens e contexto. Também é útil que o artigo não termine no caminho feliz.

No final, falhas típicas são analisadas: Connection refused se o Ollama não estiver rodando; Model not found se o nome do modelo no código não corresponder ao instalado; resposta muito longa devido ao carregamento do modelo na memória; ModuleNotFoundError se o pacote foi instalado no ambiente errado; problemas de codificação no PowerShell. Para um desenvolvedor iniciante, tal seção é frequentemente mais valiosa que a teoria, porque são esses pequenos detalhes que quebram a maioria dos experimentos iniciais. O autor já delineou a continuação da série: na segunda parte, eles construirão um pequeno chat de console a partir de uma única requisição, depois adicionarão histórico de mensagens e contexto.

Ou seja, não é um trecho disperso, mas uma entrada cuidadosa em uma rota mais longa — da execução local do modelo até uma aplicação completa. Este formato é especialmente útil para quem quer não apenas rodar uma demo, mas gradualmente transformar um LLM em parte de um projeto Python comum.

O que isto significa

O interesse em modelos locais está crescendo novamente, e tais materiais reduzem a barreira de entrada melhor que qualquer visão geral. A combinação Ollama e LiteLLM mostra que um primeiro protótipo funcional pode ser montado sem a nuvem e chaves de API, e depois quando desejado, a mesma arquitetura pode ser escalada adiante. Para desenvolvedores russos, esta é uma boa ponte entre curiosidade sobre LLMs e código real. É exatamente esses tipos de instruções que com mais frequência transformam interesse em prática.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis