Claude Code e Codex comparados em uma tarefa real: Claude é mais forte em RAG, Codex economiza tokens
O autor comparou Claude Code e Codex em detalhes em benchmarks, na construção real de um pipeline RAG e na experiência de uso no dia a dia. Claude se mostrou ma

Сравнение Claude Code и Codex получилось полезнее обычных баттлов по скриншотам и слепым симпатиям. Автор сопоставил не только модели Opus 4.6 и GPT-5.3-Codex, но и то, как оба агента ведут себя в реальной инженерной задаче, где важен не красивый ответ, а работающий результат.
Как сравнивали Сначала автор смотрит на метрику completion time horizon из исследования METR.
По ней Opus 4.6 тянет задачи примерно на 12 часов человеческой работы при 50% успешности, тогда как GPT-5.3-Codex — около 5 часов 50 минут. Разрыв заметный, но вывод не сводится к тому, что один инструмент лучше всегда. Важнее другое: coding-агент полезен не тогда, когда быстро печатает код, а когда доводит задачу до рабочего состояния без лишних кругов дебага. Поэтому для практической части выбрали не лендинг и не UI, а измеримый RAG-пайплайн для научных статей.
- Извлечение текста из PDF Разбиение статей на чанки Генерация эмбеддингов и локального индекса Поиск релевантных фрагментов по вопросу Ответ только по найденному контексту или fallback Условия были одинаковыми для обоих инструментов: Python, обработка PDF через PyMuPDF, самостоятельный выбор стратегии чанкинга и векторного хранилища, генерация ответов через llama-3.1-8b-instant и запрет на галлюцинации при слабой доказательной базе. Для оценки собрали набор из пяти научных статей и ста вопросов с эталонными ответами. Такой формат важен, потому что он убирает субъективность: здесь можно сравнить не ощущение от кода, а качество извлечения, точность ответов и то, насколько готовым агент сдаёт результат.
Где выиграл Claude По опыту автора, Claude Code ощущается как более вовлечённый напарник.
Он быстрее начинает работать, чаще ведёт задачу до конца сам и меньше перекладывает шаги на пользователя. Это хорошо совпало с экспериментом: Claude не просто написал файлы, а прогнал пайплайн end-to-end и убедился, что скрипт запускается. Codex реализовал решение медленнее и на первом проходе попросил пользователя самому поставить зависимости и проверить запуск, после чего пришлось исправлять ошибку. Для практической разработки разница между код написан и всё реально работает оказывается критичной.
«Claude — это Senior Developer, который делает работу вместе с тобой, а Codex — подрядчик».
Эта разница проявилась и в итоговых цифрах. В роли LLM-судьи ответы двух пайплайнов сравнивали по корректности, полноте, релевантности и лаконичности. Из 100 вопросов реализация Claude Code победила в 42 случаях, Codex — в 33, ещё 25 завершились ничьёй. Автор связывает преимущество Claude не с магией модели, а с более мягким порогом уверенности и, возможно, чуть более высокой температурой генерации. Плюс у Claude заметно короче путь до первого токена в новой сессии, тогда как у Codex старт иногда затягивался почти на минуту.
Где лучше Codex При этом Codex не выглядит аутсайдером.
Наоборот, в архитектуре решения он часто аккуратнее. В RAG-кейсе Codex собрал более структурированный код: pipeline-класс, централизованный конфиг, dataclass-структуры, argparse-интерфейс и валидацию согласованности моделей. Claude выбрал более плоскую и быструю реализацию без такой дисциплины.
Технически оба пришли к похожей схеме поиска, но детали отличались: Claude использовал ChromaDB и рекурсивный чанкинг по символам с перекрытием, Codex — FAISS, разбиение по предложениям и трёхуровневую оценку уверенности. Для production-кода такой дизайн может оказаться даже важнее, чем победа в одном тестовом прогоне. Ещё одно сильное место Codex — эффективность.
По приведённому в статье разбору Morph, Claude Code на сопоставимых задачах расходует в 3,2–4,2 раза больше токенов. Если эти оценки близки к реальности, пользователь Claude быстрее упрётся в лимиты подписки. Зато у Anthropic сильнее пакетное предложение вокруг продукта: у автора лучше складывается экосистема из Claude Chat, Claude Code и других сервисов.
На стороне цен тоже есть нюанс: у обоих есть планы по 20 и 200 долларов в месяц, но только у Claude есть промежуточный тариф за 100. Skills у инструментов в целом совместимы, но сообщество вокруг Claude сейчас выглядит заметно крупнее.
Что это значит
Главный вывод простой: выбирать между Claude Code и Codex по одной цифре или чужому треду в X бессмысленно. Claude сейчас выглядит сильнее там, где важны длинные задачи, end-to-end доведение и экосистема, а Codex — там, где критичны структура кода, экономия токенов и предсказуемая инженерная дисциплина. При жёстко прописанных требованиях в AGENTS.md поведенческий разрыв между ними становится меньше. Проверять это лучше на собственных, коротких и верифицируемых задачах.