Claude Code e Codex comparados em uma tarefa real: Claude é mais forte em RAG, Codex economiza tokens

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-30. Время чтения: 3 мин.

O autor comparou Claude Code e Codex em detalhes em benchmarks, na construção real de um pipeline RAG e na experiência de uso no dia a dia. Claude se mostrou ma

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-04-30· 3 мин

Claude Code e Codex comparados em uma tarefa real: Claude é mais forte em RAG, Codex economiza tokens — Источник: Habr AI. Коллаж: Hamidun News.

Сравнение Claude Code и Codex получилось полезнее обычных баттлов по скриншотам и слепым симпатиям. Автор сопоставил не только модели Opus 4.6 и GPT-5.3-Codex, но и то, как оба агента ведут себя в реальной инженерной задаче, где важен не красивый ответ, а работающий результат.

Как сравнивали Сначала автор смотрит на метрику completion time horizon из исследования METR.

По ней Opus 4.6 тянет задачи примерно на 12 часов человеческой работы при 50% успешности, тогда как GPT-5.3-Codex — около 5 часов 50 минут. Разрыв заметный, но вывод не сводится к тому, что один инструмент лучше всегда. Важнее другое: coding-агент полезен не тогда, когда быстро печатает код, а когда доводит задачу до рабочего состояния без лишних кругов дебага. Поэтому для практической части выбрали не лендинг и не UI, а измеримый RAG-пайплайн для научных статей.

Извлечение текста из PDF Разбиение статей на чанки Генерация эмбеддингов и локального индекса Поиск релевантных фрагментов по вопросу Ответ только по найденному контексту или fallback Условия были одинаковыми для обоих инструментов: Python, обработка PDF через PyMuPDF, самостоятельный выбор стратегии чанкинга и векторного хранилища, генерация ответов через llama-3.1-8b-instant и запрет на галлюцинации при слабой доказательной базе. Для оценки собрали набор из пяти научных статей и ста вопросов с эталонными ответами. Такой формат важен, потому что он убирает субъективность: здесь можно сравнить не ощущение от кода, а качество извлечения, точность ответов и то, насколько готовым агент сдаёт результат.

Где выиграл Claude По опыту автора, Claude Code ощущается как более вовлечённый напарник.

Он быстрее начинает работать, чаще ведёт задачу до конца сам и меньше перекладывает шаги на пользователя. Это хорошо совпало с экспериментом: Claude не просто написал файлы, а прогнал пайплайн end-to-end и убедился, что скрипт запускается. Codex реализовал решение медленнее и на первом проходе попросил пользователя самому поставить зависимости и проверить запуск, после чего пришлось исправлять ошибку. Для практической разработки разница между код написан и всё реально работает оказывается критичной.

«Claude — это Senior Developer, который делает работу вместе с тобой, а Codex — подрядчик».

Эта разница проявилась и в итоговых цифрах. В роли LLM-судьи ответы двух пайплайнов сравнивали по корректности, полноте, релевантности и лаконичности. Из 100 вопросов реализация Claude Code победила в 42 случаях, Codex — в 33, ещё 25 завершились ничьёй. Автор связывает преимущество Claude не с магией модели, а с более мягким порогом уверенности и, возможно, чуть более высокой температурой генерации. Плюс у Claude заметно короче путь до первого токена в новой сессии, тогда как у Codex старт иногда затягивался почти на минуту.

Где лучше Codex При этом Codex не выглядит аутсайдером.

Наоборот, в архитектуре решения он часто аккуратнее. В RAG-кейсе Codex собрал более структурированный код: pipeline-класс, централизованный конфиг, dataclass-структуры, argparse-интерфейс и валидацию согласованности моделей. Claude выбрал более плоскую и быструю реализацию без такой дисциплины.

Технически оба пришли к похожей схеме поиска, но детали отличались: Claude использовал ChromaDB и рекурсивный чанкинг по символам с перекрытием, Codex — FAISS, разбиение по предложениям и трёхуровневую оценку уверенности. Для production-кода такой дизайн может оказаться даже важнее, чем победа в одном тестовом прогоне. Ещё одно сильное место Codex — эффективность.

По приведённому в статье разбору Morph, Claude Code на сопоставимых задачах расходует в 3,2–4,2 раза больше токенов. Если эти оценки близки к реальности, пользователь Claude быстрее упрётся в лимиты подписки. Зато у Anthropic сильнее пакетное предложение вокруг продукта: у автора лучше складывается экосистема из Claude Chat, Claude Code и других сервисов.

На стороне цен тоже есть нюанс: у обоих есть планы по 20 и 200 долларов в месяц, но только у Claude есть промежуточный тариф за 100. Skills у инструментов в целом совместимы, но сообщество вокруг Claude сейчас выглядит заметно крупнее.

Что это значит

Главный вывод простой: выбирать между Claude Code и Codex по одной цифре или чужому треду в X бессмысленно. Claude сейчас выглядит сильнее там, где важны длинные задачи, end-to-end доведение и экосистема, а Codex — там, где критичны структура кода, экономия токенов и предсказуемая инженерная дисциплина. При жёстко прописанных требованиях в AGENTS.md поведенческий разрыв между ними становится меньше. Проверять это лучше на собственных, коротких и верифицируемых задачах.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com