OpenAI abandona el principal benchmark para evaluar código — y eso cambia las reglas del juego
OpenAI deja de evaluar sus modelos en SWE-bench Verified — un benchmark que se consideraba el estándar de oro para medir la capacidad de AI para escribir…
Procesado por IA desde OpenAI Blog; editado por Hamidun News
Cuando una empresa cuyos modelos han ocupado consistentemente los primeros lugares del ranking rechaza públicamente ese ranking — no es solo una decisión corporativa. Es una señal de un problema sistémico. OpenAI anunció que está cesando la evaluación de sus modelos en SWE-bench Verified — el benchmark que durante los últimos dos años ha servido como la principal medida de cuán bien la IA puede escribir y corregir código real. La razón es simple y al mismo tiempo alarmante: el benchmark ya no mide lo que debería medir.
SWE-bench surgió como un intento ambicioso de ir más allá de las pruebas sintéticas. En lugar de pedirle al modelo resolver un problema abstracto de LeetCode, el benchmark ofrecía informes de bugs reales de proyectos populares de código abierto en Python — Django, scikit-learn, sympy y otros. El modelo tenía que entender la descripción del bug, encontrar el archivo correcto en el repositorio y escribir un parche que pasara las pruebas. La versión Verified llegó después como una variante limpia — con verificación manual de tareas por humanos. Era en esta versión donde los laboratorios competían, publicando con orgullo los porcentajes de problemas resueltos en cada comunicado de prensa.
Pero detrás de la fachada de números impresionantes, se acumulaban problemas. El análisis interno de OpenAI reveló dos vulnerabilidades críticas. La primera — contaminación de los datos de entrenamiento.
Las tareas de SWE-bench Verified se basan en solicitudes de extracción públicas en repositorios abiertos. Estos datos inevitablemente terminan en los corpus de entrenamiento de los grandes modelos de lenguaje. En otras palabras, los modelos podrían ver las respuestas correctas antes de que comenzaran a ser evaluados.
Este es un problema clásico de fuga de datos, pero en el caso de SWE-bench alcanzó una escala que hace los resultados estadísticamente insignificantes. El segundo problema — la calidad de las propias pruebas. Algunas tareas contenían pruebas incorrectas o incompletas que podrían permitir soluciones incorrectas o rechazar correctas.
Cuando un benchmark se vuelve lo suficientemente popular, las personas comienzan a optimizarlo — no siempre por métodos honestos.
Es importante entender el contexto en el que se tomó esta decisión. La industria de codificación con IA está experimentando un crecimiento explosivo. Docenas de startups — desde Cognition con su Devin hasta Poolside y Magic — están atrayendo cientos de millones de dólares en inversión, y casi todas utilizan resultados en SWE-bench como argumento principal en sus pitch decks. Los principales laboratorios — Anthropic, Google DeepMind, la propia OpenAI — publican resultados en este benchmark con cada lanzamiento de nuevo modelo. Efectivamente, SWE-bench Verified se convirtió en la moneda de confianza en el segmento de programación con IA. Y ahora OpenAI está diciendo: esta moneda se ha devaluado.
La empresa recomienda la transición a SWE-bench Pro — una versión actualizada del benchmark que, por diseño, resuelve ambos problemas. Las nuevas tareas se seleccionan específicamente para minimizar la superposición con datos de entrenamiento públicos, y las pruebas se someten a verificación más rigurosa. Sin embargo, surge una pregunta natural: ¿cuánto tiempo permanecerá limpio SWE-bench Pro? La historia de los benchmarks en el aprendizaje automático es una historia de su degradación gradual. ImageNet, GLUE, SuperGLUE, MMLU — cada uno de ellos con el tiempo dejó de distinguir modelos verdaderamente fuertes de aquellos simplemente bien entrenados en una prueba específica.
Para la industria, las consecuencias de esta decisión van mucho más allá de un solo benchmark. Los inversores que invierten dinero en startups de codificación con IA ahora deben preguntarse: ¿qué hay realmente detrás de esos números impresionantes que les mostraron? Las empresas que integran asistentes con IA en sus procesos de desarrollo se ven obligadas a reconsiderar sus criterios de selección. Y los investigadores reciben otro recordatorio de que en la carrera por liderar en benchmarks, se pierde la conexión con la utilidad real.
También hay una pregunta más profunda. Si el principal laboratorio de IA del mundo admite que la herramienta estándar para medir el progreso está rota, ¿cómo entendemos si los modelos realmente están mejorando? En un mundo donde cada trimestre sale un nuevo modelo "revolucionario" con números récord, la ausencia de una regla confiable no es una minucia técnica, sino un problema fundamental.
OpenAI merece respeto por la honestidad de esta admisión. Pero el hecho de que la industria haya confiado en un benchmark contaminado durante tanto tiempo habla sobre un déficit sistémico de pensamiento crítico en la comunidad. La transición a SWE-bench Pro es un paso en la dirección correcta.
Pero el progreso real comenzará cuando dejemos de reducir la evaluación de IA a un único número en una única prueba y comencemos a construir sistemas de evaluación multidimensionales, resistentes a la manipulación, que reflejen la verdadera capacidad de los modelos para ayudar a los desarrolladores en su trabajo diario.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.