Ollama Cloud сравнили в code review: DeepSeek v3.1 оказалась сильнее Qwen и GPT-OSS
Можно ли доверить LLM полноценный code review? В практическом тесте через Ollama Cloud три модели — Qwen 3.5, GPT-OSS и DeepSeek v3.1 — проверяли реальные PR ст

Практический тест показал, что облачные модели через Ollama уже способны закрывать часть задач code review на реальных Pull Request, а не только на демонстрационных примерах. В сравнении Qwen 3.5, GPT-OSS и DeepSeek v3.1 лучшую глубину анализа и самые применимые рекомендации показала DeepSeek, хотя не обошлось без важной оговорки по конфигурации.
Как устроили тест
Автор статьи проверял модели не на абстрактных задачах, а на Pull Request из собственного легаси-проекта на Python, которому около четырёх лет. Для каждой модели подготовили отдельный PR, но условия оставили одинаковыми: один и тот же промпт, одинаковый доступ к контексту проекта и включённый RAG, чтобы система могла подтягивать дополнительные файлы и не ограничиваться только diff. Такой подход важен, потому что именно нехватка контекста часто делает AI-ревью поверхностным.
Конфигурация тоже была максимально выровнена: temperature 0.2, лимит в 4000 токенов, высокий уровень критичности замечаний, включённый поиск проблем в безопасности, производительности и стиле, а также право предлагать исправления. При этом модели анализировали не только diff, но и связанный контекст кода.
В тест вошли Qwen 3.5, GPT-OSS и DeepSeek v3.1 — три заметных open-weight модели, которые сегодня часто рассматривают как альтернативу SaaS-инструментам для разработчиков.
Модели оценивали по пятибалльной шкале. В фокусе были такие критерии: точность нахождения реальных проблем в коде понимание security-рисков склонность к галлюцинациям глубина анализа и понимание последствий изменений * практическая полезность предлагаемых исправлений Отдельно автор также смотрел на human acceptance rate — насколько велика вероятность, что комментарии модели разработчик действительно примет, а не проигнорирует как шум.
Итоги по моделям Qwen 3.5 стала приятным сюрпризом.
Она получила итоговые 3.8 балла и показала уверенный баланс между точностью, низким уровнем галлюцинаций и практическими советами. По оценке автора, модель хорошо привязывала замечания к конкретным строкам, часто предлагала реальные варианты исправлений и в целом вела себя как полезный первый ревьюер.
Слабое место — ограниченная глубина архитектурного анализа и не слишком активное использование доступных инструментов для дополнительного контекста. GPT-OSS, наоборот, выступила заметно слабее и набрала 2.9 балла.
Основная претензия — слишком общий характер замечаний. Модель находила часть реальных проблем, но хуже связывала комментарии с конкретными изменениями в PR, реже предлагала применимые auto-fix и чаще уходила в предположения без достаточных оснований. Плюсом остался понятный стиль ответов, но для практического code review этого оказалось мало: разработчику нужны не аккуратные формулировки, а точные и полезные замечания.
DeepSeek v3.1 показала самый сильный технический результат. Без штрафа её итоговая оценка составила 4.
25 балла: модель лучше других объясняла причины проблем, чаще замечала security-риски, предлагала инженерно корректные фиксы и глубже разбирала последствия изменений. Формально автор снизил итог до 3.25 балла, потому что модель не смогла использовать инструмент без включённого think mode.
Но даже с этой оговоркой именно DeepSeek названа самым глубоким и практичным вариантом среди протестированных.
«Облачные модели через
Ollama действительно можно использовать для задач code review».
Где
Ollama уместна Главный вывод статьи не в том, что Ollama автоматически заменяет специализированные сервисы вроде CodeRabbit, Claude Review или QoDo. Скорее наоборот: качество AI-ревью сильно зависит от выбранной модели, настроек и того, сколько контекста ей дали. Если взять неудачную модель или ограничить её только diff без доступа к файлам проекта, результат быстро превращается в набор поверхностных замечаний.
Зато у Ollama есть сильный сценарий применения там, где команде важны контроль и гибкость. Автор отдельно подчёркивает, что такой подход особенно интересен для проектов с чувствительным кодом, ограничениями NDA и желанием не отправлять исходники во внешнюю инфраструктуру. Плюс платформа позволяет быстро переключаться между моделями, строить собственные пайплайны поверх API и, при необходимости, уходить в локальный запуск вместо облака.
Если же у команды нет жёстких требований по приватности, а бюджет не критичен, готовые SaaS-решения всё ещё могут дать более стабильный результат «из коробки». У них сильнее интеграция в workflow, больше готовой автоматизации и меньше ручной настройки. Эксперимент скорее показывает, что open-модели догоняют этот класс продуктов быстрее, чем многие ожидали.
Что это значит
Для команд разработки это сигнал, что AI-code review уже можно использовать не как игрушку, а как рабочий слой предварительной проверки Pull Request. Человеческий ревьюер он не заменяет, но при правильной модели, хорошем контексте и доступе к инструментам способен снимать часть рутины, находить реальные проблемы и предлагать исправления ещё до того, как PR попадёт к коллеге.