مقارنة Claude Code وCodex في مهمة واقعية: Claude أقوى في RAG وCodex يوفر tokens
قارن المؤلف بين Claude Code وCodex بالتفصيل عبر benchmarks، وفي بناء pipeline RAG حقيقي، ومن خلال تجربة الاستخدام اليومية. وتبيّن أن Claude أقوى في المهام الطوي

Сравнение Claude Code и Codex получилось полезнее обычных баттлов по скриншотам и слепым симпатиям. Автор сопоставил не только модели Opus 4.6 и GPT-5.3-Codex, но и то, как оба агента ведут себя в реальной инженерной задаче, где важен не красивый ответ, а работающий результат.
Как сравнивали Сначала автор смотрит на метрику completion time horizon из исследования METR.
По ней Opus 4.6 тянет задачи примерно на 12 часов человеческой работы при 50% успешности, тогда как GPT-5.3-Codex — около 5 часов 50 минут. Разрыв заметный, но вывод не сводится к тому, что один инструмент лучше всегда. Важнее другое: coding-агент полезен не тогда, когда быстро печатает код, а когда доводит задачу до рабочего состояния без лишних кругов дебага. Поэтому для практической части выбрали не лендинг и не UI, а измеримый RAG-пайплайн для научных статей.
- Извлечение текста из PDF Разбиение статей на чанки Генерация эмбеддингов и локального индекса Поиск релевантных фрагментов по вопросу Ответ только по найденному контексту или fallback Условия были одинаковыми для обоих инструментов: Python, обработка PDF через PyMuPDF, самостоятельный выбор стратегии чанкинга и векторного хранилища, генерация ответов через llama-3.1-8b-instant и запрет на галлюцинации при слабой доказательной базе. Для оценки собрали набор из пяти научных статей и ста вопросов с эталонными ответами. Такой формат важен, потому что он убирает субъективность: здесь можно сравнить не ощущение от кода, а качество извлечения, точность ответов и то, насколько готовым агент сдаёт результат.
Где выиграл Claude По опыту автора, Claude Code ощущается как более вовлечённый напарник.
Он быстрее начинает работать, чаще ведёт задачу до конца сам и меньше перекладывает шаги на пользователя. Это хорошо совпало с экспериментом: Claude не просто написал файлы, а прогнал пайплайн end-to-end и убедился, что скрипт запускается. Codex реализовал решение медленнее и на первом проходе попросил пользователя самому поставить зависимости и проверить запуск, после чего пришлось исправлять ошибку. Для практической разработки разница между код написан и всё реально работает оказывается критичной.
«Claude — это Senior Developer, который делает работу вместе с тобой, а Codex — подрядчик».
Эта разница проявилась и в итоговых цифрах. В роли LLM-судьи ответы двух пайплайнов сравнивали по корректности, полноте, релевантности и лаконичности. Из 100 вопросов реализация Claude Code победила в 42 случаях, Codex — в 33, ещё 25 завершились ничьёй. Автор связывает преимущество Claude не с магией модели, а с более мягким порогом уверенности и, возможно, чуть более высокой температурой генерации. Плюс у Claude заметно короче путь до первого токена в новой сессии, тогда как у Codex старт иногда затягивался почти на минуту.
Где лучше Codex При этом Codex не выглядит аутсайдером.
Наоборот, в архитектуре решения он часто аккуратнее. В RAG-кейсе Codex собрал более структурированный код: pipeline-класс, централизованный конфиг, dataclass-структуры, argparse-интерфейс и валидацию согласованности моделей. Claude выбрал более плоскую и быструю реализацию без такой дисциплины.
Технически оба пришли к похожей схеме поиска, но детали отличались: Claude использовал ChromaDB и рекурсивный чанкинг по символам с перекрытием, Codex — FAISS, разбиение по предложениям и трёхуровневую оценку уверенности. Для production-кода такой дизайн может оказаться даже важнее, чем победа в одном тестовом прогоне. Ещё одно сильное место Codex — эффективность.
По приведённому в статье разбору Morph, Claude Code на сопоставимых задачах расходует в 3,2–4,2 раза больше токенов. Если эти оценки близки к реальности, пользователь Claude быстрее упрётся в лимиты подписки. Зато у Anthropic сильнее пакетное предложение вокруг продукта: у автора лучше складывается экосистема из Claude Chat, Claude Code и других сервисов.
На стороне цен тоже есть нюанс: у обоих есть планы по 20 и 200 долларов в месяц, но только у Claude есть промежуточный тариф за 100. Skills у инструментов в целом совместимы, но сообщество вокруг Claude сейчас выглядит заметно крупнее.
Что это значит
Главный вывод простой: выбирать между Claude Code и Codex по одной цифре или чужому треду в X бессмысленно. Claude сейчас выглядит сильнее там, где важны длинные задачи, end-to-end доведение и экосистема, а Codex — там, где критичны структура кода, экономия токенов и предсказуемая инженерная дисциплина. При жёстко прописанных требованиях в AGENTS.md поведенческий разрыв между ними становится меньше. Проверять это лучше на собственных, коротких и верифицируемых задачах.