Claude Code y Codex comparados en una tarea real: Claude es más fuerte en RAG, Codex ahorra tokens
El autor comparó Claude Code y Codex en detalle en benchmarks, en la implementación real de un pipeline RAG y en la experiencia de uso diaria. Claude resultó…
Procesado por IA desde Habr AI; editado por Hamidun News
Claude Code y Codex comparados en una tarea real: Claude es más fuerte en RAG, Codex ahorra tokens
La comparación entre Claude Code y Codex resultó ser más útil que las típicas batallas sobre capturas de pantalla y simpatías ciegas. El autor comparó no solo los modelos Opus 4.6 y GPT-5.3-Codex, sino también cómo se comportan ambos agentes en una tarea real de ingeniería, donde un resultado que funciona importa más que una respuesta bonita.
Cómo se compararon
Primero, el autor observa la métrica de completion time horizon de la investigación METR. Por esta métrica, Opus 4.6 maneja tareas aproximadamente equivalentes a 12 horas de trabajo humano con una tasa de éxito del 50%, mientras que GPT-5.3-Codex maneja aproximadamente 5 horas 50 minutos. La brecha es notable, pero la conclusión no se reduce a que una herramienta siempre sea mejor. Lo que importa más es esto: un agente de codificación es útil no cuando escribe código rápidamente, sino cuando lleva una tarea a un estado funcionando sin ciclos innecesarios de depuración. Por eso para la parte práctica eligieron no una página de destino o UI, sino un pipeline RAG medible para artículos científicos.
- Extracción de texto de PDF
- División de artículos en chunks
- Generación de embeddings e índice local
- Búsqueda de fragmentos relevantes por pregunta
- Respuesta solo desde el contexto encontrado o fallback
Las condiciones eran idénticas para ambas herramientas: Python, procesamiento de PDF a través de PyMuPDF, elección independiente de estrategia de chunking y almacenamiento vectorial, generación de respuestas a través de llama-3.1-8b-instant y prohibición de alucinaciones con base probatoria débil. Para la evaluación, reunieron un conjunto de cinco artículos científicos y 100 preguntas con respuestas de referencia. Este formato es importante porque elimina la subjetividad: aquí puede comparar no la sensación sobre el código, sino la calidad de la extracción, precisión de las respuestas y qué tan listo entrega el agente el resultado.
Dónde ganó Claude
Por la experiencia del autor, Claude Code se siente como un compañero más comprometido. Comienza a trabajar más rápido, más a menudo lleva la tarea hasta el final por sí solo y pone menos pasos en el usuario. Esto se alineó bien con el experimento: Claude no solo escribió archivos, sino que ejecutó el pipeline end-to-end y se aseguró de que el script realmente funciona. Codex implementó la solución más lentamente y en el primer intento pidió al usuario que instalara las dependencias y verificara la ejecución, después de lo cual tuvo que corregir un error. Para desarrollo práctico, la diferencia entre código está escrito y todo realmente funciona resulta ser crítica.
"Claude es un
Senior Developer que hace el trabajo contigo, mientras que Codex es un contratista."
Esta diferencia también se mostró en los números finales. Con un juez LLM comparando las respuestas de ambos pipelines en corrección, completitud, relevancia y concisión. De 100 preguntas, la implementación de Claude Code ganó en 42 casos, Codex en 33, y 25 terminaron en empate. El autor atribuye la ventaja de Claude no a la magia del modelo, sino a un umbral de confianza más suave y posiblemente una temperatura de generación un poco más alta. Además, Claude tiene un camino notablemente más corto al primer token en una nueva sesión, mientras que Codex a veces tardaba casi un minuto en iniciarse.
Dónde Codex es mejor
Al mismo tiempo, Codex no parece un perdedor. Al contrario, en la arquitectura de la solución es frecuentemente más pulido. En el caso RAG, Codex reunió código más estructurado: clase pipeline, config centralizada, estructuras dataclass, interfaz argparse y validación de coherencia de modelos. Claude eligió una implementación más plana y rápida sin tal disciplina. Técnicamente ambos llegaron a un esquema de búsqueda similar, pero los detalles diferían: Claude usó ChromaDB y chunking recursivo a nivel de carácter con solapamiento, Codex usó FAISS, división basada en oraciones y puntuación de confianza de tres niveles. Para código en producción, tal diseño podría ser incluso más importante que ganar en una única ejecución de prueba.
Otro punto fuerte de Codex es la eficiencia. Según el análisis Morph citado en el artículo, Claude Code en tarefas comparables gasta 3,2–4,2 veces más tokens. Si estas estimaciones son cercanas a la realidad, los usuarios de Claude alcanzarán sus límites de suscripción más rápidamente. Pero Anthropic tiene una oferta de ecosistema más fuerte alrededor del producto: la experiencia del autor es mejor con un ecosistema de Claude Chat, Claude Code y otros servicios. También hay un matiz de precios: ambos tienen planes a $20 y $200 por mes, pero solo Claude tiene un nivel intermedio a $100. Las habilidades de las herramientas son generalmente compatibles, pero la comunidad alrededor de Claude actualmente se ve notablemente más grande.
Qué significa esto
La conclusión principal es simple: elegir entre Claude Code y Codex basándose en un solo número o el hilo de alguien en X no tiene sentido. Claude actualmente se ve más fuerte donde importan tareas largas, conclusión end-to-end y ecosistema, mientras que Codex es donde son críticos la estructura del código, el ahorro de tokens y la disciplina de ingeniería predecible. Con requisitos estrictamente establecidos en AGENTS.md, la brecha de comportamiento entre ellos se vuelve menor. Es mejor verificar esto en sus propias tareas cortas y verificables.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.