ProjDevBench: conseguirá a IA criar software completo do zero?
# ProjDevBench: A IA conseguirá criar software completo do zero? Quando falamos sobre inteligência artificial no desenvolvimento de software, geralmente nos…
Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News
# ProjDevBench: A IA conseguirá criar software completo do zero?
Quando falamos sobre inteligência artificial no desenvolvimento de software, geralmente nos lembramos de exemplos como ChatGPT corrigindo um bug em uma função em minutos, ou Claude gerando código elegante para um algoritmo simples. Mas o que aconteceria se pedíssemos a um agente de IA para projetar e construir uma aplicação completa do zero—com toda a arquitetura, gerenciamento de dependências e integração de componentes? Pesquisadores de laboratórios líderes trabalharam discretamente nesta questão e criaram ProjDevBench, uma plataforma que revela as verdadeiras capacidades e limitações dos modelos atuais de IA atuando como engenheiros de software completos. Os resultados forçam uma reconsideração das previsões otimistas sobre a substituição iminente de desenvolvedores pela automação.
ProjDevBench difere fundamentalmente de todos os testes anteriores de codificação inteligente. Enquanto pesquisas anteriores verificavam se um modelo poderia escrever uma única função ou resolver um problema no LeetCode, o novo benchmark apresenta à IA uma tarefa real: criar um produto acabado do zero. A plataforma exige que os agentes não apenas gerem código, mas tomem decisões arquiteturais, dividam o projeto em módulos, gerenciem dependências, escrevam testes e integrem tudo em um produto funcional. Estas não são funções isoladas—esta é uma simulação de desenvolvimento real, onde cada decisão afeta a próxima, e os erros se acumulam, complicando todo o sistema.
A própria estrutura do ProjDevBench reflete desafios reais na engenharia de software. Os agentes recebem especificações de projetos com complexidades variadas: de utilitários simples a aplicações com múltiplas camadas de lógica, bancos de dados e APIs externas. Os modelos devem compreender os requisitos, planejar a estrutura do código, selecionar tecnologias e bibliotecas apropriadas, gerenciar conflitos entre componentes e garantir a funcionalidade. É bem semelhante ao que um desenvolvedor junior faz em sua primeira tarefa séria, exceto pela falta de capacidade de pedir conselhos a colegas sênior ou de ter seus pull requests revistos.
Os resultados dos testes abriram os olhos até mesmo entre otimistas. Agentes LLM modernos, alimentados por modelos líderes como GPT-4 e Claude, demonstram claramente progresso em comparação com gerações anteriores. Eles podem dividir competentemente um projeto em módulos, selecionar uma arquitetura sólida e escrever código funcional. Mas os problemas aparecem imediatamente. Os agentes esquecem das dependências entre componentes e geram código que funciona isoladamente, mas falha durante a integração. Eles gerenciam mal o estado do sistema e frequentemente não conseguem rastrear como mudanças em um módulo afetam outros. A escalabilidade do código diminui conforme a complexidade aumenta—os agentes começam a duplicar lógica em vez de refatorar, transformando um projeto simples em uma bagunça emaranhada.
Além disso, os desenvolvedores de IA se saem mal na depuração em nível de projeto. Quando algo dá errado, os modelos frequentemente perdem o rastreamento das relações de causa e efeito e começam a alterar partes aleatórias do código em vez de analisar logicamente o problema. Os testes, que deveriam ser uma parte integrante do desenvolvimento, frequentemente se tornam uma formalidade—os agentes escrevem testes que passam porque essencialmente testam a mesma coisa que o código real.
Esses resultados não significam que a IA é inútil para desenvolvimento. Eles revelam uma lacuna real entre a geração de código e a engenharia de software. O primeiro é aritmética; o segundo é uma arte. ProjDevBench ressalta que o caminho para desenvolvedores totalmente autônomos de IA ainda é longo. O futuro provavelmente pertence a ferramentas híbridas: assistentes de IA que geram código e propõem soluções, mas sob o controle de um engenheiro experiente pronto para pensar estrategicamente e ver o quadro completo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.