Ollama Cloud comparado em code review: DeepSeek v3.1 se mostrou superior a Qwen e GPT-OSS
Dá para confiar a um LLM um code review completo? Em um teste prático via Ollama Cloud, três modelos — Qwen 3.5, GPT-OSS e DeepSeek v3.1 — avaliaram PRs…
Processado por IA de Habr AI; editado por Hamidun News
Um teste prático mostrou que modelos em nuvem através do Ollama já são capazes de lidar com algumas tarefas de revisão de código em Pull Requests reais, não apenas em exemplos demonstrativos. Na comparação entre Qwen 3.5, GPT-OSS e DeepSeek v3.1, DeepSeek demonstrou a melhor profundidade de análise e recomendações mais aplicáveis, embora houvesse uma importante ressalva sobre a configuração.
Como o teste foi realizado O autor do artigo testou os modelos não em tarefas abstratas, mas em um
Pull Request de seu próprio projeto legado em Python que tem cerca de quatro anos. Para cada modelo, um PR separado foi preparado, mas as condições permaneceram as mesmas: o mesmo prompt, acesso idêntico ao contexto do projeto e RAG ativado, para que o sistema pudesse incorporar arquivos adicionais e não se limitasse apenas ao diff. Essa abordagem é importante porque a falta de contexto frequentemente torna as revisões de IA superficiais.
A configuração também foi alinhada o máximo possível: temperatura 0.2, limite de 4000 tokens, alto nível de criticidade dos comentários, detecção ativada de problemas de segurança, desempenho e estilo, bem como a capacidade de sugerir correções. Os modelos analisaram não apenas o diff, mas também o contexto de código relacionado.
O teste incluiu Qwen 3.5, GPT-OSS e DeepSeek v3.1 — três modelos de peso aberto notáveis que são frequentemente considerados como alternativas a ferramentas SaaS para desenvolvedores.
Os modelos foram avaliados em uma escala de cinco pontos.
- precisão na identificação de problemas reais no código
- compreensão de riscos de segurança
- tendência a alucinar
- profundidade de análise e compreensão das consequências das alterações
- utilidade prática das correções propostas
O autor analisou separadamente a taxa de aceitação humana — a probabilidade de que os desenvolvedores realmente aceitem os comentários do modelo em vez de ignorá-los como ruído.
Resultados por modelo Qwen 3.5 foi uma surpresa agradável.
Recebeu uma pontuação final de 3.8 e mostrou um equilíbrio confiante entre precisão, baixos níveis de alucinações e conselhos práticos. De acordo com a avaliação do autor, o modelo anexava bem os comentários a linhas específicas, frequentemente sugeria opções de correção reais e, em geral, se comportava como um primeiro revisor útil.
Ponto fraco — profundidade limitada da análise arquitetônica e uso não muito ativo das ferramentas disponíveis para contexto adicional. GPT-OSS, por outro lado, teve desempenho notavelmente pior e obteve 2.9.
A principal reclamação — comentários genéricos demais. O modelo encontrou alguns problemas reais, mas foi pior em vincular comentários a mudanças específicas do PR, sugeriu menos frequentemente correções automáticas aplicáveis e mais frequentemente fez suposições sem base suficiente. Um ponto positivo foi o estilo claro das respostas, mas para revisão de código prática, isso se mostrou insuficiente: os desenvolvedores precisam não de formulações bem-feitas, mas de comentários precisos e úteis.
DeepSeek v3.1 mostrou o melhor resultado técnico. Sem penalidade, sua pontuação final foi 4.
25: o modelo explicou melhor as razões dos problemas, notou mais frequentemente riscos de segurança, ofereceu correções tecnicamente corretas e analisou mais profundamente as consequências das alterações. Formalmente, o autor reduziu a pontuação para 3.25 porque o modelo não conseguiu usar a ferramenta sem o modo de pensamento ativado.
Mas mesmo com essa ressalva, DeepSeek é nomeado como a opção mais profunda e prática entre as testadas.
"Modelos em nuvem através do
Ollama podem realmente ser usados para tarefas de revisão de código".
Onde
Ollama é apropriado A principal conclusão do artigo não é que Ollama substitui automaticamente serviços especializados como CodeRabbit, Claude Review ou QoDo. Pelo contrário: a qualidade das revisões de IA depende fortemente do modelo escolhido, das configurações e de quanto contexto foi fornecido a ele. Se você escolher um modelo malsucedido ou limitá-lo apenas ao diff sem acesso aos arquivos do projeto, o resultado rapidamente se transforma em um conjunto de comentários superficiais.
No entanto, Ollama tem um caso de uso forte onde controle e flexibilidade importam para a equipe. O autor enfatiza particularmente que essa abordagem é especialmente interessante para projetos com código sensível, restrições de NDA e desejo de não enviar código-fonte para infraestrutura externa. Além disso, a plataforma permite a troca rápida entre modelos, construção de pipelines personalizados no topo da API e, se necessário, alternância para execução local em vez da nuvem.
Se a equipe não tem requisitos estritos de privacidade e o orçamento não é crítico, as soluções SaaS prontas ainda podem fornecer resultados mais estáveis prontos para uso. Eles têm integração de fluxo de trabalho mais forte, mais automação pronta e menos configuração manual. O experimento mostra que modelos abertos estão alcançando essa classe de produtos mais rápido do que muitos esperavam.
O que isso significa
Para equipes de desenvolvimento, este é um sinal de que a revisão de código de IA já pode ser usada não como um brinquedo, mas como uma camada de trabalho de verificação preliminar de Pull Request. Não substitui a revisão humana, mas com o modelo certo, bom contexto e acesso a ferramentas, é capaz de reduzir parte do trabalho rotineiro, encontrar problemas reais e sugerir correções antes que o PR chegue a um colega.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.