La Evaluación de Modelos de IA Cuesta Más Que Su Entrenamiento — Una Nueva Barrera para Investigadores
Ejecutar un benchmark de IA integral en 2026 cuesta entre $2.800 y $40.000 por ejecución — ya no es una partida presupuestaria junto al entrenamiento, sino…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
Ejecutar una evaluación completa de un agente de IA en 2026 cuesta entre $2.800 y $40.000 por ejecución. La EvalEval Coalition publicó un informe extenso: el benchmarking dejó de ser una línea presupuestaria junto al entrenamiento de modelos y se convirtió en una barrera computacional y financiera independiente — con todas las implicaciones para la independencia de la evaluación.
Cifras de Benchmarks
Los investigadores recopilaron datos específicos en ocho sistemas de evaluación ampliamente utilizados:
- HAL (tabla de clasificación integral de agentes) — $40.000 por 21.730 ejecuciones en 9 modelos y 9 benchmarks
- GAIA — hasta $2.829 por ejecución única sin caché
- PaperBench — de $4.200 a $9.500 dependiendo del protocolo
- The Well (ML para tareas de física) — ~$2.400 para arquitectura, ~$9.600 para barrido completo
- MLE-Bench — ~$5.500 por semilla (75 problemas Kaggle × 24 horas en GPU + API)
Una sola ejecución de GAIA es comparable a un presupuesto anual típico de viajes para un estudiante de posgrado. Ejecutar tres semillas en seis modelos cuesta aproximadamente $150.000. Algunos benchmarks requieren entrenamiento real — y allí, el costo computacional de la evaluación supera el costo del entrenamiento en sí por aproximadamente cien veces.
Por Qué las Pruebas de Agentes No Pueden Comprimirse
Para benchmarks de lenguaje estáticos, la compresión funciona desde hace mucho: Flash-HELM reduce una prueba 100–200 veces sin perder precisión de clasificación, y tinyBenchmarks redujo MMLU de 14.000 ejemplos a 100 con aproximadamente 2% de error. Los benchmarks de agentes resisten las mismas técnicas. El costo de tareas dentro de una sola prueba de agente varía en un factor de 10.000. Sin embargo, tareas caras no producen resultados proporcionalmente precisos: en Mind2Web, una diferencia de precio de 9× corresponde a solo una diferencia de precisión del 2%. El efecto máximo de compresión es 2–3,5 veces, dos órdenes de magnitud peor que los benchmarks estáticos.
Un multiplicador adicional es la confiabilidad. El mismo modelo en τ-bench mostró 60% en una ejecución pero solo 25% en ocho. La medición estadísticamente válida requiere un mínimo de k=8 repeticiones, multiplicando automáticamente el costo por 8: una prueba de $10.000 se convierte en $80.000.
"Se cree convencionalmente que la capacidad del modelo es el factor limitante principal.
Pero la evaluación muestra: el verdadero cuello de botella es la confiabilidad," — EvalEval Coalition.
Verificación Independiente Se Convierte en Privilegio
Cuando tres semillas en seis modelos cuestan $150.000, los grupos académicos son físicamente eliminados del juego. Solo laboratorios grandes tienen presupuestos para evaluación estadísticamente sólida — los mismos que crean los sistemas siendo evaluados. Este es un conflicto de intereses estructural: la verificación externa no desaparece porque la gente no la quiera, sino porque nadie puede pagarla.
La EvalEval Coalition propone una solución pragmática: dejar de ejecutar las mismas pruebas una y otra vez. Actualmente cada grupo comienza desde cero porque otros resultados están enterrados en papers en PDF sin datos legibles por máquina. La coalición lanzó el proyecto Every Eval Ever — un repositorio en Hugging Face donde se envían resultados con metadatos completos, logs y parámetros. Se ha calculado que incluso reutilizar datos dos veces ahorraría más que todas las técnicas de compresión combinadas.
Lo Que Esto Significa
La economía de la evaluación de IA se ha invertido: la evaluación ya no es una línea presupuestaria menor sino un costo operacional primario e instrumento de influencia. Quien puede pagar por un benchmark escribe la tabla de clasificación. Si la verificación independiente continúa haciéndose más cara, la supervisión externa de sistemas de IA corre el riesgo de concentrarse completamente en manos de los laboratorios que los crean.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.