Ollama Cloud comparado en un code review: DeepSeek v3.1 resultó superior a Qwen y GPT-OSS

¿Se puede confiar a un LLM un code review completo? En una prueba práctica a través de Ollama Cloud, tres modelos — Qwen 3.5, GPT-OSS y DeepSeek v3.1 — revisaron PR reales de un proyecto legacy de Python con el mismo prompt, la misma configuración y el mismo contexto RAG. DeepSeek fue el modelo más útil por la profundidad del análisis y la calidad de las correcciones, Qwen sorprendió para bien y GPT-OSS quedó claramente rezagado en el valor práctico de sus observaciones.

Khamidun Zhemal

Monitoreo de AI · Habr AI

30 abr 2026· 3 min

Procesado por IA desde Habr AI; editado por Hamidun News

Ollama Cloud comparado en un code review: DeepSeek v3.1 resultó superior a Qwen y GPT-OSS — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Una prueba práctica mostró que los modelos en la nube a través de Ollama ya son capaces de manejar algunas tareas de revisión de código en Pull Requests reales, no solo en ejemplos demostrativos. En la comparación entre Qwen 3.5, GPT-OSS y DeepSeek v3.1, DeepSeek demostró la mejor profundidad de análisis y recomendaciones más aplicables, aunque hubo una importante salvedad con respecto a la configuración.

Cómo se realizó la prueba

El autor del artículo probó los modelos no en tareas abstractas, sino en un Pull Request de su propio proyecto heredado en Python que tiene aproximadamente cuatro años. Para cada modelo se preparó un PR separado, pero las condiciones permanecieron iguales: el mismo prompt, acceso idéntico al contexto del proyecto y RAG habilitado, para que el sistema pudiera incorporar archivos adicionales y no limitarse solo al diff. Este enfoque es importante porque la falta de contexto a menudo hace que las revisiones de IA sean superficiales.

La configuración también fue alineada lo máximo posible: temperatura 0.2, límite de 4000 tokens, alto nivel de criticidad de los comentarios, detección habilitada de problemas de seguridad, rendimiento y estilo, así como la capacidad de sugerir correcciones. Los modelos analizaron no solo el diff, sino también el contexto de código relacionado.

La prueba incluyó Qwen 3.5, GPT-OSS y DeepSeek v3.1 — tres modelos de peso abierto notables que a menudo se consideran como alternativas a herramientas SaaS para desarrolladores.

Los modelos fueron evaluados en una escala de cinco puntos.

precisión para encontrar problemas reales en el código
comprensión de riesgos de seguridad
tendencia a alucinar
profundidad de análisis y comprensión de las consecuencias de los cambios
utilidad práctica de las correcciones propuestas

El autor también analizó por separado la tasa de aceptación humana — qué tan probable es que los desarrolladores realmente acepten los comentarios del modelo en lugar de ignorarlos como ruido.

Resultados por modelo Qwen 3.5 fue una grata sorpresa.

Recibió una puntuación final de 3.8 y mostró un equilibrio confiado entre precisión, bajos niveles de alucinaciones y consejos prácticos. Según la evaluación del autor, el modelo vinculaba bien los comentarios a líneas específicas, a menudo sugería opciones de corrección reales y en general se comportaba como un revisor útil de primera instancia.

Punto débil — profundidad limitada del análisis arquitectónico y uso no muy activo de las herramientas disponibles para contexto adicional. GPT-OSS, por el contrario, tuvo un desempeño notablemente peor y obtuvo 2.9.

La principal queja — comentarios demasiado genéricos. El modelo encontró algunos problemas reales, pero fue peor vinculando comentarios a cambios específicos del PR, menos a menudo sugirió auto-correcciones aplicables y más a menudo hizo suposiciones sin base suficiente. Un punto positivo fue el estilo claro de las respuestas, pero para la revisión de código práctica, esto resultó insuficiente: los desarrolladores necesitan no formulaciones cuidadosas, sino comentarios precisos y útiles.

DeepSeek v3.1 mostró el resultado técnico más fuerte. Sin penalización, su puntuación final fue 4.

25: el modelo explicó mejor las razones de los problemas, notó con más frecuencia riesgos de seguridad, ofreció correcciones correctas desde el punto de vista de ingeniería y analizó más profundamente las consecuencias de los cambios. Formalmente, el autor redujo la puntuación a 3.25 porque el modelo no pudo usar la herramienta sin el modo de pensamiento habilitado.

Pero incluso con esta salvedad, DeepSeek se menciona como la opción más profunda y práctica entre las probadas.

"Los modelos en la nube a través de

Ollama realmente pueden utilizarse para tareas de revisión de código".

Dónde

Ollama es apropiada La conclusión principal del artículo no es que Ollama reemplace automáticamente servicios especializados como CodeRabbit, Claude Review o QoDo. Más bien lo opuesto: la calidad de las revisiones de IA depende fuertemente del modelo elegido, la configuración y cuánto contexto se le proporcionó. Si elige un modelo poco exitoso o lo limita solo al diff sin acceso a los archivos del proyecto, el resultado rápidamente se convierte en un conjunto de comentarios superficiales.

Sin embargo, Ollama tiene un caso de uso fuerte donde el control y la flexibilidad importan al equipo. El autor enfatiza particularmente que este enfoque es especialmente interesante para proyectos con código sensible, restricciones de NDA y deseo de no enviar código fuente a infraestructura externa. Además, la plataforma permite cambiar rápidamente entre modelos, construir canalizaciones personalizadas sobre la API y, si es necesario, cambiar a ejecución local en lugar de la nube.

Si el equipo no tiene requisitos estrictos de privacidad y el presupuesto no es crítico, las soluciones SaaS listas para usar aún pueden proporcionar resultados más estables listos para usar. Tienen una integración de flujo de trabajo más fuerte, más automatización lista y menos configuración manual. El experimento muestra que los modelos abiertos están alcanzando esta clase de productos más rápido de lo que muchos esperaban.

Qué significa esto

Para los equipos de desarrollo, esto es una señal de que la revisión de código de IA ya se puede usar no como un juguete, sino como una capa de trabajo de verificación preliminar de Pull Request. No reemplaza la revisión humana, pero con el modelo correcto, buen contexto y acceso a herramientas, es capaz de reducir parte del trabajo rutinario, encontrar problemas reales y sugerir correcciones antes de que el PR llegue a un colega.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 50 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita