Anthropic, OpenAI e Cursor: oito níveis de maturidade da engenharia de agentes
A Habr AI publicou a tradução de um artigo sobre os oito níveis da engenharia de agentes — do autocompletar de código a equipes de agentes autônomos. A ideia…
Processado por IA de Habr AI; editado por Hamidun News
A Habr AI publicou uma tradução de um artigo sobre oito níveis de engenharia de agentes—uma prática que transforma LLM de um assistente de autopreenchimento em uma equipe quase autônoma de desenvolvedores. A ideia principal do artigo: um avanço na qualidade do modelo por si só não garante crescimento de produtividade se a equipe não tiver estabelecido contexto, regras, ferramentas e loops de feedback.
De prompts para agentes
Os dois primeiros níveis já são familiares ao autor: tab complete e agent IDE. Nessa etapa, a IA acelera tarefas locais—completa fragmentos de código, ajuda com edições em múltiplos arquivos, constrói um plano a partir de uma ideia. Mas o verdadeiro avanço começa no terceiro nível, onde a engenharia de contexto toma o centro do palco. Não é mais sobre um prompt polido, mas sobre disciplina: quais arquivos, regras e descrições de ferramentas o modelo recebe, o que está no histórico da sessão e quanto ruído extra consome a janela de contexto. Quanto menos lixo, mais estável o resultado.
"Cada token deve ganhar seu lugar no prompt."
O quarto nível é engenharia composta: a equipe não apenas usa o modelo, mas transforma descobertas bem-sucedidas em um sistema. Se o agente comete um erro, as conclusões são fixadas em arquivos de regras, documentação e padrões de trabalho para que a próxima sessão não repita os mesmos erros. O quinto nível adiciona ferramentas de ação a isso: MCP, skills, acesso a APIs, bancos de dados, CI e navegador. A partir desse ponto, LLM deixa de ser apenas um parceiro de conversa sobre código e começa realmente a alterar a base de código, testá-la e participar de revisões.
Onde o retorno cresce
O sexto nível é onde o autor vê AI-coding se tornando verdadeiramente pronto para produção. Aqui, contexto sozinho não é suficiente—todo um ambiente ao redor do agente importa: testes, linters, tipagem, logs, verificações de navegador e outros loops de feedback. Estes permitem ao modelo não apenas gerar um patch, mas perceber um erro, verificar a si mesmo e fazer outra iteração sem intervenção humana. O artigo chama isso de harness engineering—projetar um runtime onde um agente pode ver as consequências de suas próprias mudanças e esbarrar em restrições, não em instruções vagas.
- arquivos de regras e documentação que estabelecem o contexto
- ferramentas CLI ou MCP para acesso a dados, testes e interfaces
- contrapressão automática: tipos, linters, hooks, CI
- divisão de papéis entre executor e revisor para que o agente não se verifique
Disso emerge o sétimo nível—agentes em segundo plano. Se um modelo pode construir um plano, navegar em um repositório e validar resultados por conta própria, você não precisa mais mantê-lo em uma aba interativa. O agente pode trabalhar de forma assíncrona: explorar a base de código, escrever uma funcionalidade, rodar verificações, abrir um PR e retornar apenas com dúvidas ou um resumo. Para a equipe, isso muda a forma de trabalho em si: o desenvolvedor passa menos tempo malabarando tarefas manualmente e cada vez mais age como um orquestrador que define intenção, restrições e prioridades.
Para onde o mercado está se movendo
Além disso está o que ainda parece mais a vanguarda do que uma prática cotidiana. O oitavo nível é equipes de agentes autônomos, onde múltiplos LLMs se coordenam diretamente entre si em vez de através de um operador central. O texto fornece exemplos de Anthropic e Cursor: agentes paralelos já foram usados para escrever um compilador C, montar um navegador e realizar grandes migrações em uma base de código.
Mas com a escala vêm os antigos problemas do desenvolvimento: regressões, conflitos, travamentos, cautela excessiva e custos de computação crescentes. Então o autor do artigo oferece uma conclusão sóbria: a maioria das equipes agora deve se concentrar não em sonhar com departamentos de IA completamente independentes, mas em atingir pelo menos um sétimo nível maduro. Ou seja, construir contexto limpo, acumular regras, skills de qualidade, loops de feedback confiáveis e orquestração em segundo plano.
Segundo ele, é aqui que o retorno prático mais próximo reside. E aqui é onde a diferença entre uma equipe de IA forte e fraca se torna especialmente notável: algumas aceleram lançamentos, outras se afogam no caos que automatizaram a si mesmas.
O que isso significa
O artigo Habr AI é útil porque desloca a conversa sobre "modelos inteligentes" para uma conversa sobre maturidade de engenharia. O mercado de AI-coding não está se movendo para um botão mágico, mas para sistemas onde os modelos recebem contexto apropriado, ferramentas de trabalho e limites de feedback estritos. Os vencedores não serão aqueles com simplesmente o modelo mais novo, mas aqueles que construem um pipeline de trabalho ao seu redor mais rapidamente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.