Jiqizhixin (机器之心)→ оригинал

ProjDevBench: сможет ли ИИ создать полноценный софт с нуля?

Исследователи представили ProjDevBench — платформу для оценки ИИ-агентов в условиях реальной разработки ПО. В отличие от традиционных тестов на написание отдель

ProjDevBench: сможет ли ИИ создать полноценный софт с нуля?
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

# ProjDevBench: сможет ли ИИ создать полноценный софт с нуля?

Когда мы говорим об искусственном интеллекте в разработке программного обеспечения, обычно вспоминаем примеры вроде ChatGPT, исправляющего багу в функции за минуту, или Claude, генерирующего красивый код для простого алгоритма. Но что произойдёт, если попросить ИИ-агента спроектировать и собрать полноценное приложение с нуля — вместе со всей архитектурой, управлением зависимостей и интеграцией компонентов? Исследователи из ведущих лабораторий тихо поработали над этим вопросом и создали ProjDevBench — платформу, которая раскрывает настоящие возможности и ограничения современных ИИ-моделей в роли полноценных программных инженеров. Результаты заставляют пересмотреть оптимистичные прогнозы о скором вытеснении разработчиков автоматизацией.

ProjDevBench кардинально отличается от всех предыдущих тестов интеллектуального кодирования. Если раньше исследователи проверяли, может ли модель написать отдельную функцию или решить задачу на LeetCode, то новый бенчмарк ставит перед ИИ реальную задачу: создать готовый продукт с нуля. Платформа требует от агентов не просто генерировать код, а принимать архитектурные решения, разбивать проект на модули, управлять зависимостями, писать тесты и объединять всё в работающий продукт. Это не отдельные функции — это симуляция реальной разработки, где каждое решение влияет на следующее, а ошибки накапливаются, усложняя всю систему.

Сама структура ProjDevBench отражает реальные вызовы программной инженерии. Агентам даются спецификации проектов разной сложности: от простых утилит до приложений с несколькими слоями логики, базами данных и внешними API. Модели должны понять требования, спланировать структуру кода, выбрать подходящие технологии и библиотеки, управлять конфликтами между компонентами и обеспечить работоспособность. Это вполне похоже на то, что делает junior-разработчик на своей первой серьёзной задаче, только без возможности спросить совета у senior и без проверки pull request.

Результаты тестирования открыли глаза даже оптимистам. Современные LLM-агенты, питаемые лучшими моделями вроде GPT-4 и Claude, действительно показывают прогресс по сравнению с предыдущим поколением. Они могут грамотно разбить проект на модули, выбрать разумную архитектуру, написать функциональный код. Но сразу же появляются проблемы. Агенты забывают о зависимостях между компонентами, генерируют код, который работает в изоляции, но ломается при интеграции. Они неважно управляют состоянием системы и часто не могут отследить, как изменение в одном модуле влияет на другие. Масштабируемость кода падает при увеличении сложности — агенты начинают дублировать логику вместо рефакторинга, что превращает простой проект в запутанный клубок.

Более того, ИИ-разработчики плохо справляются с дебагингом на уровне проекта. Когда что-то идёт не так, модели часто теряют нить причинно-следственных связей и начинают менять случайные части кода вместо того, чтобы логически анализировать проблему. Тестирование, которое должно быть неотъемлемой частью разработки, часто становится формальностью — агенты пишут тесты, которые проходят, потому что тестируют, по сути, то же, что и реальный код.

Эти результаты не означают, что ИИ бесполезен для разработки. Они показывают настоящий разрыв между генерированием кода и инженерией программного обеспечения. Первая — это таблица умножения, вторая — это искусство. ProjDevBench подчёркивает, что на пути к полностью автономному ИИ-разработчику ещё далеко. Будущее, вероятно, принадлежит гибридным инструментам: ИИ-помощники, которые генерируют код и предлагают решения, но под контролем опытного инженера, готового думать стратегически и видеть картину целиком.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…