Habr AI→ original

Ollama Cloud comparé en code review : DeepSeek v3.1 s’est révélée supérieure à Qwen et GPT-OSS

Peut-on confier une code review complète à un LLM ? Dans un test pratique via Ollama Cloud, trois modèles — Qwen 3.5, GPT-OSS et DeepSeek v3.1 — ont examiné…

Traité par IA depuis Habr AI ; édité par Hamidun News
Ollama Cloud comparé en code review : DeepSeek v3.1 s’est révélée supérieure à Qwen et GPT-OSS
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Un test pratique a montré que les modèles en nuage via Ollama sont déjà capables de traiter certaines tâches d'examen de code sur de vrais Pull Requests, pas seulement sur des exemples de démonstration. Dans la comparaison entre Qwen 3.5, GPT-OSS et DeepSeek v3.1, DeepSeek a démontré la meilleure profondeur d'analyse et les recommandations les plus applicables, bien qu'il y ait eu une importante réserve concernant la configuration.

Comment le test a été mené L'auteur de l'article a testé les modèles

non pas sur des tâches abstraites, mais sur un Pull Request de son propre projet hérité en Python qui a environ quatre ans. Pour chaque modèle, un PR séparé a été préparé, mais les conditions sont restées identiques : le même prompt, accès identique au contexte du projet et RAG activé, pour que le système puisse incorporer des fichiers supplémentaires et ne soit pas limité au seul diff. Cette approche est importante car le manque de contexte rend souvent les critiques d'IA superficielles.

La configuration a également été alignée au maximum : température 0.2, limite de 4000 jetons, niveau élevé de criticité des commentaires, détection activée des problèmes de sécurité, de performance et de style, ainsi que la capacité de proposer des correctifs. Les modèles ont analysé non seulement le diff, mais aussi le contexte de code associé.

Le test comprenait Qwen 3.5, GPT-OSS et DeepSeek v3.1 — trois modèles de poids ouvert notables qui sont souvent considérés comme des alternatives aux outils SaaS pour les développeurs.

Les modèles ont été évalués sur une échelle de cinq points.

  • précision de la détection des vrais problèmes dans le code
  • compréhension des risques de sécurité
  • tendance à halluciner
  • profondeur de l'analyse et compréhension des conséquences des changements
  • utilité pratique des corrections proposées

L'auteur a également examiné séparément le taux d'acceptation humaine — la probabilité que les développeurs acceptent réellement les commentaires du modèle plutôt que de les ignorer comme du bruit.

Résultats par modèle Qwen 3.5 a été une agréable surprise.

Elle a obtenu un score final de 3.8 et a montré un équilibre assuré entre la précision, les faibles niveaux d'hallucinations et les conseils pratiques. Selon l'évaluation de l'auteur, le modèle a bien attaché les commentaires à des lignes spécifiques, proposait souvent de vrais scénarios de correction et se comportait globalement comme un premier examinateur utile.

Point faible — profondeur limitée de l'analyse architecturale et utilisation pas très active des outils disponibles pour du contexte supplémentaire. GPT-OSS, en revanche, a obtenu des résultats sensiblement moins bons et a obtenu 2.9.

La plainte principale — des commentaires trop génériques. Le modèle a trouvé certains vrais problèmes, mais a moins bien lié les commentaires aux changements spécifiques du PR, a moins souvent proposé des correctifs applicables et a plus souvent fait des suppositions sans fondement suffisant. Un point positif a été le style clair des réponses, mais pour l'examen de code pratique, cela s'est avéré insuffisant : les développeurs ont besoin non pas de formulations soignées, mais de commentaires précis et utiles.

DeepSeek v3.1 a montré le résultat technique le plus fort. Sans pénalité, son score final était 4.

25 : le modèle a mieux expliqué les raisons des problèmes, a plus souvent remarqué les risques de sécurité, a proposé des correctifs techniquement corrects et a analysé plus profondément les conséquences des changements. Formellement, l'auteur a abaissé le score à 3.25 parce que le modèle n'a pas pu utiliser l'outil sans le mode de réflexion activé.

Mais même avec cette réserve, DeepSeek est nommé comme l'option la plus profonde et la plus pratique parmi celles testées.

"Les modèles en nuage via

Ollama peuvent vraiment être utilisés pour les tâches d'examen de code".

Ollama est approprié La principale conclusion de l'article n'est pas qu'Ollama remplace automatiquement les services spécialisés comme CodeRabbit, Claude Review ou QoDo. Plutôt l'inverse : la qualité des critiques d'IA dépend fortement du modèle choisi, des paramètres et de la quantité de contexte qui lui a été fournie. Si vous choisissez un modèle inefficace ou le limitez au seul diff sans accès aux fichiers du projet, le résultat se transforme rapidement en un ensemble de commentaires superficiels.

Cependant, Ollama a un scénario d'utilisation fort où le contrôle et la flexibilité importent pour l'équipe. L'auteur insiste particulièrement sur le fait que cette approche est particulièrement intéressante pour les projets avec du code sensible, des restrictions de NDA et un désir de ne pas envoyer le code source à une infrastructure externe. De plus, la plate-forme permet de basculer rapidement entre les modèles, de construire des pipelines personnalisés au-dessus de l'API et, si nécessaire, de passer à l'exécution locale au lieu du nuage.

Si l'équipe n'a pas d'exigences strictes en matière de confidentialité et que le budget n'est pas critique, les solutions SaaS prêtes à l'emploi peuvent toujours fournir des résultats plus stables prêts à l'emploi. Elles ont une intégration de flux de travail plus forte, plus d'automatisation prête et moins de configuration manuelle. L'expérience montre plutôt que les modèles ouverts rattrapent cette classe de produits plus rapidement que beaucoup ne l'attendaient.

Ce que cela signifie

Pour les équipes de développement, c'est un signal que l'examen de code par IA peut déjà être utilisé non pas comme un jouet, mais comme une couche de travail de vérification préalable des Pull Requests. Il ne remplace pas l'examen humain, mais avec le bon modèle, un bon contexte et l'accès aux outils, il est capable de réduire une partie du travail routinier, de trouver de vrais problèmes et de proposer des corrections avant que le PR n'arrive à un collègue.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…