Negócios

SWE-bench

SWE-bench é um benchmark que avalia sistemas de IA para codificação em tarefas reais de engenharia de software, exigindo que resolvam problemas genuínos (issues) do GitHub em repositórios Python de código aberto, com sucesso definido como produzir um patch de código que passa no conjunto de testes automatizados do projeto.

SWE-bench é um benchmark de engenharia de software apresentado por Carlos Jimenez e colegas da Princeton University em 2023. Consiste em mais de 2 mil problemas (issues) reais extraídos de repositórios Python de código aberto populares — incluindo Django, scikit-learn, Flask, astropy e sympy — cada um emparelhado com o patch de verdade fundamental (ground-truth patch) usado para resolver o problema e um conjunto de testes que verifica a correção. Um sistema passa em uma tarefa se seu patch gerado, aplicado ao código-fonte, faz com que os testes relevantes passem sem quebrar outros testes que já passavam. Esta métrica pass@1 resolved exige código funcionalmente correto, não uma resposta que soe plausível.

SWE-bench testa capacidades muito além de geração de código isolada: compreensão de grandes código-bases com múltiplos arquivos, reprodução de bugs a partir de descrições em linguagem natural, navegação pela estrutura de repositórios e escrita de patches que se integram limpa e coerentemente com o estilo de código e lógica existentes. SWE-bench Lite (300 instâncias curadas) e SWE-bench Verified (um subconjunto validado por humanos de aproximadamente 500 tarefas) são os subconjuntos mais comumente reportados, escolhidos para reduzir ruído de problemas ambíguos. O desempenho inicial foi muito baixo — linhas de base do GPT-4 resolviam menos de 5% no benchmark completo, e o agente Devin da Cognition AI atraiu ampla atenção no início de 2024 ao aparentemente resolver aproximadamente 13,8% das tarefas, resultado estado-da-arte na época.

SWE-bench importa porque mede a utilidade prática de engenharia de forma fundamentada e verificável, exigindo uso de ferramentas e raciocínio multi-arquivo em vez de apenas fluência de linguagem. Impulsionou o desenvolvimento de agentes de codificação IA especializados — sistemas que combinam modelos de linguagem com acesso a shell, execução de código e ferramentas de edição de arquivos — e se tornou o benchmark competitivo primário para esse ecossistema.

A partir de 2026, as taxas de resolução no SWE-bench Verified aumentaram substancialmente. Sistemas agentic líderes da Anthropic, OpenAI e várias startups reportaram taxas de resolução superior a 50%, com os melhores sistemas alegando mais de 60%. Este progresso reduziu o poder discriminativo do benchmark na fronteira e impulsionou interesse em sucessores mais difíceis cobrindo código-bases maiores, tarefas multi-repositório e linguagens não-Python.

Exemplo

Um agente de codificação IA recebe a descrição de um bug de roteamento do Django de um problema (issue) real do GitHub, autonomamente reproduz o teste que falha, edita o arquivo de código-fonte relevante e submete um patch que passa em todos os testes — a tarefa exata que SWE-bench mede e classifica.

Termos relacionados

Benchmark Agente de Codificação Avaliação de Modelo (Evals)HumanEval

← Glossário