Ollama Cloud comparado em code review: DeepSeek v3.1 se mostrou superior a Qwen e GPT-OSS

Dá para confiar a um LLM um code review completo? Em um teste prático via Ollama Cloud, três modelos — Qwen 3.5, GPT-OSS e DeepSeek v3.1 — avaliaram PRs reais de um projeto legado em Python com o mesmo prompt, as mesmas configurações e o mesmo contexto RAG. A DeepSeek foi a mais útil em profundidade de análise e qualidade das correções, a Qwen surpreendeu positivamente, e o GPT-OSS ficou bem atrás em valor prático das observações.

Khamidun Zhemal

Monitoramento de AI · Habr AI

30 de abr. de 2026· 3 min

Processado por IA de Habr AI; editado por Hamidun News

Ollama Cloud comparado em code review: DeepSeek v3.1 se mostrou superior a Qwen e GPT-OSS — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

Um teste prático mostrou que modelos em nuvem através do Ollama já são capazes de lidar com algumas tarefas de revisão de código em Pull Requests reais, não apenas em exemplos demonstrativos. Na comparação entre Qwen 3.5, GPT-OSS e DeepSeek v3.1, DeepSeek demonstrou a melhor profundidade de análise e recomendações mais aplicáveis, embora houvesse uma importante ressalva sobre a configuração.

Como o teste foi realizado O autor do artigo testou os modelos não em tarefas abstratas, mas em um

Pull Request de seu próprio projeto legado em Python que tem cerca de quatro anos. Para cada modelo, um PR separado foi preparado, mas as condições permaneceram as mesmas: o mesmo prompt, acesso idêntico ao contexto do projeto e RAG ativado, para que o sistema pudesse incorporar arquivos adicionais e não se limitasse apenas ao diff. Essa abordagem é importante porque a falta de contexto frequentemente torna as revisões de IA superficiais.

A configuração também foi alinhada o máximo possível: temperatura 0.2, limite de 4000 tokens, alto nível de criticidade dos comentários, detecção ativada de problemas de segurança, desempenho e estilo, bem como a capacidade de sugerir correções. Os modelos analisaram não apenas o diff, mas também o contexto de código relacionado.

O teste incluiu Qwen 3.5, GPT-OSS e DeepSeek v3.1 — três modelos de peso aberto notáveis que são frequentemente considerados como alternativas a ferramentas SaaS para desenvolvedores.

Os modelos foram avaliados em uma escala de cinco pontos.

precisão na identificação de problemas reais no código
compreensão de riscos de segurança
tendência a alucinar
profundidade de análise e compreensão das consequências das alterações
utilidade prática das correções propostas

O autor analisou separadamente a taxa de aceitação humana — a probabilidade de que os desenvolvedores realmente aceitem os comentários do modelo em vez de ignorá-los como ruído.

Resultados por modelo Qwen 3.5 foi uma surpresa agradável.

Recebeu uma pontuação final de 3.8 e mostrou um equilíbrio confiante entre precisão, baixos níveis de alucinações e conselhos práticos. De acordo com a avaliação do autor, o modelo anexava bem os comentários a linhas específicas, frequentemente sugeria opções de correção reais e, em geral, se comportava como um primeiro revisor útil.

Ponto fraco — profundidade limitada da análise arquitetônica e uso não muito ativo das ferramentas disponíveis para contexto adicional. GPT-OSS, por outro lado, teve desempenho notavelmente pior e obteve 2.9.

A principal reclamação — comentários genéricos demais. O modelo encontrou alguns problemas reais, mas foi pior em vincular comentários a mudanças específicas do PR, sugeriu menos frequentemente correções automáticas aplicáveis e mais frequentemente fez suposições sem base suficiente. Um ponto positivo foi o estilo claro das respostas, mas para revisão de código prática, isso se mostrou insuficiente: os desenvolvedores precisam não de formulações bem-feitas, mas de comentários precisos e úteis.

DeepSeek v3.1 mostrou o melhor resultado técnico. Sem penalidade, sua pontuação final foi 4.

25: o modelo explicou melhor as razões dos problemas, notou mais frequentemente riscos de segurança, ofereceu correções tecnicamente corretas e analisou mais profundamente as consequências das alterações. Formalmente, o autor reduziu a pontuação para 3.25 porque o modelo não conseguiu usar a ferramenta sem o modo de pensamento ativado.

Mas mesmo com essa ressalva, DeepSeek é nomeado como a opção mais profunda e prática entre as testadas.

"Modelos em nuvem através do

Ollama podem realmente ser usados para tarefas de revisão de código".

Onde

Ollama é apropriado A principal conclusão do artigo não é que Ollama substitui automaticamente serviços especializados como CodeRabbit, Claude Review ou QoDo. Pelo contrário: a qualidade das revisões de IA depende fortemente do modelo escolhido, das configurações e de quanto contexto foi fornecido a ele. Se você escolher um modelo malsucedido ou limitá-lo apenas ao diff sem acesso aos arquivos do projeto, o resultado rapidamente se transforma em um conjunto de comentários superficiais.

No entanto, Ollama tem um caso de uso forte onde controle e flexibilidade importam para a equipe. O autor enfatiza particularmente que essa abordagem é especialmente interessante para projetos com código sensível, restrições de NDA e desejo de não enviar código-fonte para infraestrutura externa. Além disso, a plataforma permite a troca rápida entre modelos, construção de pipelines personalizados no topo da API e, se necessário, alternância para execução local em vez da nuvem.

Se a equipe não tem requisitos estritos de privacidade e o orçamento não é crítico, as soluções SaaS prontas ainda podem fornecer resultados mais estáveis prontos para uso. Eles têm integração de fluxo de trabalho mais forte, mais automação pronta e menos configuração manual. O experimento mostra que modelos abertos estão alcançando essa classe de produtos mais rápido do que muitos esperavam.

O que isso significa

Para equipes de desenvolvimento, este é um sinal de que a revisão de código de IA já pode ser usada não como um brinquedo, mas como uma camada de trabalho de verificação preliminar de Pull Request. Não substitui a revisão humana, mas com o modelo certo, bom contexto e acesso a ferramentas, é capaz de reduzir parte do trabalho rotineiro, encontrar problemas reais e sugerir correções antes que o PR chegue a um colega.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 50 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis