Claude Code et Codex comparés sur une tâche réelle : Claude est plus fort en RAG, Codex économise des tokens

Q: Quelle est la source ?

Publication originale sur Habr AI. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

L’auteur a comparé en détail Claude Code et Codex sur des benchmarks, dans la mise en place réelle d’un pipeline RAG et à l’usage au quotidien. Claude s’est…

Rédaction de Hamidun News

Veille IA · Habr AI

30 avr. 2026· 3 min

Traité par IA depuis Habr AI ; édité par Hamidun News

Claude Code et Codex comparés sur une tâche réelle : Claude est plus fort en RAG, Codex économise des tokens — Source : Habr AI. Collage: Hamidun News.

◐ Écouter l'article

Claude Code et Codex comparés sur une tâche réelle : Claude est plus fort en RAG, Codex économise les tokens

La comparaison entre Claude Code et Codex s'est avérée plus utile que les typiques combats sur les captures d'écran et les sympathies aveugles. L'auteur a comparé non seulement les modèles Opus 4.6 et GPT-5.3-Codex, mais aussi comment les deux agents se comportent dans une tâche réelle d'ingénierie, où un résultat qui fonctionne importe plus qu'une belle réponse.

Comment ils ont comparé

D'abord, l'auteur observe la métrique de completion time horizon de la recherche METR. Par cette métrique, Opus 4.6 gère des tâches approximativement équivalentes à 12 heures de travail humain avec un taux de succès de 50%, tandis que GPT-5.

3-Codex gère environ 5 heures 50 minutes. L'écart est notable, mais la conclusion ne se résume pas à un outil toujours meilleur. Ce qui importe plus, c'est ceci : un agent de codage est utile non pas quand il écrit rapidement du code, mais quand il amène une tâche à un état fonctionnel sans cycles de débogage inutiles.

C'est pourquoi pour la partie pratique, ils ont choisi non une page de destination ou une UI, mais un pipeline RAG mesurable pour les articles scientifiques.

Extraction de texte depuis PDF
Division des articles en chunks
Génération d'embeddings et d'index local
Recherche de fragments pertinents par question
Réponse uniquement à partir du contexte trouvé ou fallback

Les conditions étaient identiques pour les deux outils : Python, traitement PDF via PyMuPDF, choix indépendant de stratégie de chunking et stockage vectoriel, génération de réponses via llama-3.1-8b-instant et interdiction des hallucinations avec une base de preuve faible. Pour l'évaluation, ils ont rassemblé un ensemble de cinq articles scientifiques et 100 questions avec des réponses de référence. Ce format est important car il supprime la subjectivité : ici vous pouvez comparer non la sensation sur le code, mais la qualité de l'extraction, la précision des réponses et comment l'agent livre le résultat prêt.

Où Claude a gagné

Par l'expérience de l'auteur, Claude Code se sent comme un partenaire plus engagé. Il commence à travailler plus vite, plus souvent mène la tâche jusqu'au bout tout seul et met moins d'étapes sur l'utilisateur. Cela s'est bien aligné avec l'expérience : Claude non seulement a écrit des fichiers, mais a exécuté le pipeline end-to-end et s'est assuré que le script fonctionne réellement. Codex a implémenté la solution plus lentement et à la première tentative a demandé à l'utilisateur d'installer les dépendances et de vérifier l'exécution, après quoi une erreur a dû être corrigée. Pour le développement pratique, la différence entre le code est écrit et tout fonctionne réellement s'avère critique.

«

Claude est un Senior Developer qui fait le travail avec vous, tandis que Codex est un prestataire. »

Cette différence s'est aussi manifestée dans les chiffres finaux. Avec un juge LLM comparant les réponses des deux pipelines sur la correction, la complétude, la pertinence et la concision. Sur 100 questions, l'implémentation de Claude Code a gagné dans 42 cas, Codex dans 33, et 25 se sont terminées par une égalité. L'auteur attribue l'avantage de Claude non à la magie du modèle, mais à un seuil de confiance plus doux et peut-être une température de génération légèrement plus élevée. De plus, Claude a un chemin notablement plus court vers le premier token dans une nouvelle session, tandis que Codex prenait parfois près d'une minute pour démarrer.

Où Codex est meilleur

En même temps, Codex ne ressemble pas à un perdant. Au contraire, en architecture de solution il est souvent plus soigné. Dans le cas RAG, Codex a assemblé un code plus structuré : classe pipeline, config centralisée, structures dataclass, interface argparse et validation de cohérence des modèles.

Claude a choisi une implémentation plus plate et plus rapide sans telle discipline. Techniquement les deux sont arrivés à un schéma de recherche similaire, mais les détails différaient : Claude utilisait ChromaDB et chunking récursif au niveau des caractères avec chevauchement, Codex utilisait FAISS, division basée sur les phrases et notation de confiance à trois niveaux. Pour du code en production, un tel design pourrait même être plus important que de gagner dans une seule exécution de test.

Un autre point fort de Codex est l'efficacité. Selon la décomposition Morph citée dans l'article, Claude Code sur des tâches comparables dépense 3,2–4,2 fois plus de tokens. Si ces estimations sont proches de la réalité, les utilisateurs de Claude atteindront leurs limites d'abonnement plus rapidement.

Mais Anthropic a une offre d'écosystème plus forte autour du produit : l'expérience de l'auteur est meilleure avec un écosystème de Claude Chat, Claude Code et autres services. Il y a aussi une nuance de prix : les deux ont des plans à 20 $ et 200 $ par mois, mais seul Claude a un niveau intermédiaire à 100 $. Les compétences des outils sont généralement compatibles, mais la communauté autour de Claude semble actuellement notablement plus importante.

Ce que cela signifie

La conclusion principale est simple : choisir entre Claude Code et Codex basé sur un seul chiffre ou un fil de quelqu'un sur X est vain. Claude semble actuellement plus fort là où les tâches longues, l'achèvement end-to-end et l'écosystème importent, tandis que Codex est là où la structure du code, l'économie de tokens et la discipline d'ingénierie prévisible sont critiques. Avec des exigences strictement prescrites dans AGENTS.md, l'écart comportemental entre eux devient plus petit. Il est préférable de vérifier ceci sur vos propres tâches courtes et vérifiables.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite