Ollama Cloud сравнили в code review: DeepSeek v3.1 оказалась сильнее Qwen и GPT-OSS

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-30. Время чтения: 3 мин.

Можно ли доверить LLM полноценный code review? В практическом тесте через Ollama Cloud три модели — Qwen 3.5, GPT-OSS и DeepSeek v3.1 — проверяли реальные PR ст

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-04-30· 3 мин

Ollama Cloud сравнили в code review: DeepSeek v3.1 оказалась сильнее Qwen и GPT-OSS — Источник: Habr AI. Коллаж: Hamidun News.

Практический тест показал, что облачные модели через Ollama уже способны закрывать часть задач code review на реальных Pull Request, а не только на демонстрационных примерах. В сравнении Qwen 3.5, GPT-OSS и DeepSeek v3.1 лучшую глубину анализа и самые применимые рекомендации показала DeepSeek, хотя не обошлось без важной оговорки по конфигурации.

Как устроили тест

Автор статьи проверял модели не на абстрактных задачах, а на Pull Request из собственного легаси-проекта на Python, которому около четырёх лет. Для каждой модели подготовили отдельный PR, но условия оставили одинаковыми: один и тот же промпт, одинаковый доступ к контексту проекта и включённый RAG, чтобы система могла подтягивать дополнительные файлы и не ограничиваться только diff. Такой подход важен, потому что именно нехватка контекста часто делает AI-ревью поверхностным.

Конфигурация тоже была максимально выровнена: temperature 0.2, лимит в 4000 токенов, высокий уровень критичности замечаний, включённый поиск проблем в безопасности, производительности и стиле, а также право предлагать исправления. При этом модели анализировали не только diff, но и связанный контекст кода.

В тест вошли Qwen 3.5, GPT-OSS и DeepSeek v3.1 — три заметных open-weight модели, которые сегодня часто рассматривают как альтернативу SaaS-инструментам для разработчиков.

Модели оценивали по пятибалльной шкале. В фокусе были такие критерии: точность нахождения реальных проблем в коде понимание security-рисков склонность к галлюцинациям глубина анализа и понимание последствий изменений * практическая полезность предлагаемых исправлений Отдельно автор также смотрел на human acceptance rate — насколько велика вероятность, что комментарии модели разработчик действительно примет, а не проигнорирует как шум.

Итоги по моделям Qwen 3.5 стала приятным сюрпризом.

Она получила итоговые 3.8 балла и показала уверенный баланс между точностью, низким уровнем галлюцинаций и практическими советами. По оценке автора, модель хорошо привязывала замечания к конкретным строкам, часто предлагала реальные варианты исправлений и в целом вела себя как полезный первый ревьюер.

Слабое место — ограниченная глубина архитектурного анализа и не слишком активное использование доступных инструментов для дополнительного контекста. GPT-OSS, наоборот, выступила заметно слабее и набрала 2.9 балла.

Основная претензия — слишком общий характер замечаний. Модель находила часть реальных проблем, но хуже связывала комментарии с конкретными изменениями в PR, реже предлагала применимые auto-fix и чаще уходила в предположения без достаточных оснований. Плюсом остался понятный стиль ответов, но для практического code review этого оказалось мало: разработчику нужны не аккуратные формулировки, а точные и полезные замечания.

DeepSeek v3.1 показала самый сильный технический результат. Без штрафа её итоговая оценка составила 4.

25 балла: модель лучше других объясняла причины проблем, чаще замечала security-риски, предлагала инженерно корректные фиксы и глубже разбирала последствия изменений. Формально автор снизил итог до 3.25 балла, потому что модель не смогла использовать инструмент без включённого think mode.

Но даже с этой оговоркой именно DeepSeek названа самым глубоким и практичным вариантом среди протестированных.

«Облачные модели через

Ollama действительно можно использовать для задач code review».

Где

Ollama уместна Главный вывод статьи не в том, что Ollama автоматически заменяет специализированные сервисы вроде CodeRabbit, Claude Review или QoDo. Скорее наоборот: качество AI-ревью сильно зависит от выбранной модели, настроек и того, сколько контекста ей дали. Если взять неудачную модель или ограничить её только diff без доступа к файлам проекта, результат быстро превращается в набор поверхностных замечаний.

Зато у Ollama есть сильный сценарий применения там, где команде важны контроль и гибкость. Автор отдельно подчёркивает, что такой подход особенно интересен для проектов с чувствительным кодом, ограничениями NDA и желанием не отправлять исходники во внешнюю инфраструктуру. Плюс платформа позволяет быстро переключаться между моделями, строить собственные пайплайны поверх API и, при необходимости, уходить в локальный запуск вместо облака.

Если же у команды нет жёстких требований по приватности, а бюджет не критичен, готовые SaaS-решения всё ещё могут дать более стабильный результат «из коробки». У них сильнее интеграция в workflow, больше готовой автоматизации и меньше ручной настройки. Эксперимент скорее показывает, что open-модели догоняют этот класс продуктов быстрее, чем многие ожидали.

Что это значит

Для команд разработки это сигнал, что AI-code review уже можно использовать не как игрушку, а как рабочий слой предварительной проверки Pull Request. Человеческий ревьюер он не заменяет, но при правильной модели, хорошем контексте и доступе к инструментам способен снимать часть рутины, находить реальные проблемы и предлагать исправления ещё до того, как PR попадёт к коллеге.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com