Hugging Face Blog→ original

La Evaluación de Modelos de IA Cuesta Más Que Su Entrenamiento — Una Nueva Barrera para Investigadores

Ejecutar un benchmark de IA integral en 2026 cuesta entre $2.800 y $40.000 por ejecución — ya no es una partida presupuestaria junto al entrenamiento, sino…

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
La Evaluación de Modelos de IA Cuesta Más Que Su Entrenamiento — Una Nueva Barrera para Investigadores
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

Ejecutar una evaluación completa de un agente de IA en 2026 cuesta entre $2.800 y $40.000 por ejecución. La EvalEval Coalition publicó un informe extenso: el benchmarking dejó de ser una línea presupuestaria junto al entrenamiento de modelos y se convirtió en una barrera computacional y financiera independiente — con todas las implicaciones para la independencia de la evaluación.

Cifras de Benchmarks

Los investigadores recopilaron datos específicos en ocho sistemas de evaluación ampliamente utilizados:

  • HAL (tabla de clasificación integral de agentes) — $40.000 por 21.730 ejecuciones en 9 modelos y 9 benchmarks
  • GAIA — hasta $2.829 por ejecución única sin caché
  • PaperBench — de $4.200 a $9.500 dependiendo del protocolo
  • The Well (ML para tareas de física) — ~$2.400 para arquitectura, ~$9.600 para barrido completo
  • MLE-Bench — ~$5.500 por semilla (75 problemas Kaggle × 24 horas en GPU + API)

Una sola ejecución de GAIA es comparable a un presupuesto anual típico de viajes para un estudiante de posgrado. Ejecutar tres semillas en seis modelos cuesta aproximadamente $150.000. Algunos benchmarks requieren entrenamiento real — y allí, el costo computacional de la evaluación supera el costo del entrenamiento en sí por aproximadamente cien veces.

Por Qué las Pruebas de Agentes No Pueden Comprimirse

Para benchmarks de lenguaje estáticos, la compresión funciona desde hace mucho: Flash-HELM reduce una prueba 100–200 veces sin perder precisión de clasificación, y tinyBenchmarks redujo MMLU de 14.000 ejemplos a 100 con aproximadamente 2% de error. Los benchmarks de agentes resisten las mismas técnicas. El costo de tareas dentro de una sola prueba de agente varía en un factor de 10.000. Sin embargo, tareas caras no producen resultados proporcionalmente precisos: en Mind2Web, una diferencia de precio de 9× corresponde a solo una diferencia de precisión del 2%. El efecto máximo de compresión es 2–3,5 veces, dos órdenes de magnitud peor que los benchmarks estáticos.

Un multiplicador adicional es la confiabilidad. El mismo modelo en τ-bench mostró 60% en una ejecución pero solo 25% en ocho. La medición estadísticamente válida requiere un mínimo de k=8 repeticiones, multiplicando automáticamente el costo por 8: una prueba de $10.000 se convierte en $80.000.

"Se cree convencionalmente que la capacidad del modelo es el factor limitante principal.

Pero la evaluación muestra: el verdadero cuello de botella es la confiabilidad," — EvalEval Coalition.

Verificación Independiente Se Convierte en Privilegio

Cuando tres semillas en seis modelos cuestan $150.000, los grupos académicos son físicamente eliminados del juego. Solo laboratorios grandes tienen presupuestos para evaluación estadísticamente sólida — los mismos que crean los sistemas siendo evaluados. Este es un conflicto de intereses estructural: la verificación externa no desaparece porque la gente no la quiera, sino porque nadie puede pagarla.

La EvalEval Coalition propone una solución pragmática: dejar de ejecutar las mismas pruebas una y otra vez. Actualmente cada grupo comienza desde cero porque otros resultados están enterrados en papers en PDF sin datos legibles por máquina. La coalición lanzó el proyecto Every Eval Ever — un repositorio en Hugging Face donde se envían resultados con metadatos completos, logs y parámetros. Se ha calculado que incluso reutilizar datos dos veces ahorraría más que todas las técnicas de compresión combinadas.

Lo Que Esto Significa

La economía de la evaluación de IA se ha invertido: la evaluación ya no es una línea presupuestaria menor sino un costo operacional primario e instrumento de influencia. Quien puede pagar por un benchmark escribe la tabla de clasificación. Si la verificación independiente continúa haciéndose más cara, la supervisión externa de sistemas de IA corre el riesgo de concentrarse completamente en manos de los laboratorios que los crean.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…