Claude Code e Codex comparados em uma tarefa real: Claude é mais forte em RAG, Codex economiza tokens
O autor comparou Claude Code e Codex em detalhes em benchmarks, na construção real de um pipeline RAG e na experiência de uso no dia a dia. Claude se mostrou…
Processado por IA de Habr AI; editado por Hamidun News
Claude Code e Codex comparados em uma tarefa real: Claude é mais forte em RAG, Codex economiza tokens
A comparação entre Claude Code e Codex acabou sendo mais útil do que batalhas típicas sobre screenshots e simpatias cegas. O autor comparou não apenas os modelos Opus 4.6 e GPT-5.3-Codex, mas também como ambos os agentes se comportam em uma tarefa real de engenharia, onde um resultado funcionando importa mais do que uma resposta bonita.
Como foi feita a comparação
Primeiro, o autor observa a métrica de completion time horizon da pesquisa METR. Por essa métrica, Opus 4.6 trata tarefas aproximadamente equivalentes a 12 horas de trabalho humano com taxa de sucesso de 50%, enquanto GPT-5.3-Codex lida com aproximadamente 5 horas 50 minutos. A diferença é notável, mas a conclusão não se resume a uma ferramenta sempre sendo melhor. O que importa mais é isto: um agente de codificação é útil não quando escreve código rapidamente, mas quando leva uma tarefa a um estado funcionando sem ciclos desnecessários de depuração. É por isso que para a parte prática escolheram não uma página de destino ou UI, mas um pipeline RAG mensurável para artigos científicos.
- Extração de texto de PDF
- Divisão de artigos em chunks
- Geração de embeddings e índice local
- Busca por fragmentos relevantes por pergunta
- Resposta apenas a partir do contexto encontrado ou fallback
As condições eram idênticas para ambas as ferramentas: Python, processamento de PDF via PyMuPDF, escolha independente de estratégia de chunking e armazenamento vetorial, geração de respostas via llama-3.1-8b-instant e proibição de alucinações com base probatória fraca. Para avaliação, coletaram um conjunto de cinco artigos científicos e 100 perguntas com respostas de referência. Este formato é importante porque remove a subjetividade: aqui você pode comparar não a sensação sobre o código, mas a qualidade da extração, precisão das respostas e como o agente entrega o resultado pronto.
Onde Claude ganhou
Pela experiência do autor, Claude Code se sente como um parceiro mais envolvido. Começa a trabalhar mais rapidamente, mais frequentemente leva a tarefa até o fim por conta própria e coloca menos passos no usuário. Isto se alinhou bem com o experimento: Claude não apenas escreveu arquivos, mas executou o pipeline end-to-end e se certificou de que o script realmente funciona. Codex implementou a solução mais lentamente e na primeira tentativa pediu ao usuário para instalar dependências e verificar a execução, após o que um erro teve que ser corrigido. Para desenvolvimento prático, a diferença entre código está escrito e tudo realmente funciona acaba sendo crítica.
"Claude é um
Senior Developer que faz o trabalho com você, enquanto Codex é um contratante."
Essa diferença apareceu também nos números finais. Com um juiz LLM comparando as respostas de ambos os pipelines em correção, completude, relevância e concisão. De 100 perguntas, a implementação do Claude Code venceu em 42 casos, Codex em 33, e 25 terminaram em empate. O autor atribui a vantagem do Claude não à magia do modelo, mas a um limiar de confiança mais suave e possivelmente temperatura de geração um pouco mais alta. Além disso, Claude tem um caminho notavelmente mais curto para o primeiro token em uma nova sessão, enquanto Codex às vezes levava quase um minuto para iniciar.
Onde Codex é melhor
Ao mesmo tempo, Codex não parece um outsider. Pelo contrário, em arquitetura de solução é frequentemente mais limpo. No caso RAG, Codex montou código mais estruturado: classe pipeline, config centralizado, estruturas dataclass, interface argparse e validação de consistência de modelos. Claude escolheu uma implementação mais plana e rápida sem tal disciplina. Tecnicamente ambos chegaram a um esquema de busca similar, mas os detalhes diferiram: Claude usou ChromaDB e chunking recursivo em nível de caracteres com sobreposição, Codex usou FAISS, divisão baseada em sentenças e pontuação de confiança de três níveis. Para código production, tal design poderia até ser mais importante do que vencer em uma única execução de teste.
Outro ponto forte do Codex é eficiência. De acordo com a análise Morph citada no artigo, Claude Code em tarefas comparáveis gasta 3,2–4,2 vezes mais tokens. Se essas estimativas estão próximas da realidade, usuários do Claude atingirão seus limites de assinatura mais rapidamente. Mas Anthropic tem uma oferta de ecossistema mais forte ao redor do produto: a experiência do autor é melhor com um ecossistema de Claude Chat, Claude Code e outros serviços. Há também uma nuance de preços: ambos têm planos a $20 e $200 por mês, mas apenas Claude tem um nível intermediário a $100. As habilidades das ferramentas são geralmente compatíveis, mas a comunidade ao redor do Claude atualmente parece notavelmente maior.
O que isto significa
A conclusão principal é simples: escolher entre Claude Code e Codex baseado em um único número ou thread de alguém no X é sem sentido. Claude atualmente parece mais forte onde tarefas longas, conclusão end-to-end e ecossistema importam, enquanto Codex é onde estrutura de código, economia de tokens e disciplina de engenharia previsível são críticas. Com requisitos estritamente prescritos em AGENTS.md, a lacuna comportamental entre eles se torna menor. É melhor verificar isto em suas próprias tarefas curtas e verificáveis.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.