Investigadora de UCL y Stanford explica por qué los benchmarks de AI dejaron de funcionar
Las puntuaciones altas en los benchmarks de AI dicen cada vez menos sobre la utilidad real. Angela Aristidou, de UCL y Stanford, escribe que los modelos no…
Procesado por IA desde Habr AI; editado por Hamidun News
Las puntuaciones altas en benchmarks de IA ya no garantizan que un modelo sea útil en el trabajo real. La investigadora Angela Aristidou de la UCL y Stanford propone reestructurar la lógica misma de la evaluación de IA: mirar no los resultados en el vacío, sino cómo se comportan los sistemas dentro de equipos, procesos y ciclos de trabajo largos.
Por qué los testes se rompen
Los benchmarks actuales son convenientes porque reducen todo a una pregunta simple: ¿resolvió el modelo una tarea aislada mejor que un humano? Este enfoque funciona bien para ajedrez, preguntas de examen, fragmentos cortos de código o textos con respuesta unívoca. La industria obtiene rankings claros, porcentajes de precisión y bonitas tablas comparativas.
El problema es que casi nadie usa IA exactamente como se prueba. En las organizaciones, los modelos no trabajan en un ambiente estéril, sino en procesos complejos con múltiples participantes, reglas internas, excepciones e inputs que cambian. Lo que importa no es solo la velocidad y precisión de la respuesta, sino si la IA acelera aprobaciones, ayuda al equipo a notar errores y no crea una nueva capa de ruido operacional.
Así, un modelo que brilla en pruebas sintéticas puede resultar ser un eslabón débil en un ciclo real de retroalimentación.
El Problema de Equipos Reales
Aristidou da un ejemplo de sistemas de IA médica que formalmente muestran resultados muy fuertes e incluso obtienen aprobaciones regulatorias. En la práctica, los médicos deben incorporar sus conclusiones en estándares de informes locales, requisitos de la clínica y lógica de toma de decisión compartida. Por eso, una herramienta que ahorra tiempo sobre papel puede, en realidad, introducir retrasos en el proceso real.
Esto es especialmente notable en entornos donde las decisiones las toma no un solo especialista, sino un equipo multidisciplinario. Radiólogos, oncólogos, enfermeras y otros participantes discuten al paciente juntos, y el plan de tratamiento se refina conforme llegan nuevos datos. En tal sistema, lo que importa no es solo la precisión de la sugerencia, sino cómo afecta a la discusión colectiva.
Si un modelo provoca certeza prematura, aumenta la carga cognitiva o rompe la coordinación familiar, una puntuación alta en la prueba significa poco. Así es como los proyectos de IA terminan en lo que la autora llama el "cementerio de IA."
Lo que propone HAIC
En lugar de evaluar un modelo único en una tarea puntual, la autora propone el enfoque HAIC — Human-AI, Context-Specific Evaluation. Su idea es medir la combinación "humano + IA" en un ambiente de trabajo específico y a largo plazo. No se trata de rechazar completamente las pruebas, sino de desplazar el enfoque: de la precisión de laboratorio al impacto organizacional real. HAIC cambia la lógica de evaluación en varias dimensiones:
- en lugar de evaluar un ejecutor individual, se evalúan el equipo y todo el flujo de trabajo
- en lugar de una prueba única, se considera un ciclo largo de uso
- en lugar de precisión y velocidad, se ponen en el centro la coordinación, los resultados finales y la visibilidad de errores
- en lugar de una respuesta aislada, se analizan las consecuencias para procesos y decisiones adyacentes
Este enfoque ya se prueba en casos prácticos. En una red hospitalaria británica, la pregunta no era "¿mejora la IA la precisión diagnóstica?" sino "¿qué cambia en el trabajo de un equipo multidisciplinario cuando se le añade IA?" En el sector humanitario, sistemas similares se probaron durante 18 meses, rastreando por separado qué tan fácilmente las personas notaban y corregían errores del modelo. Son precisamente estas observaciones largas las que permiten entender dónde se necesitan guardrails y dónde la tecnología realmente ayuda.
Lo que significa
El mercado gradualmente se topa con el límite de las métricas sintéticas: siguen siendo útiles para comparación básica de modelos, pero cada vez predicen menos el valor real de la implementación. Si el enfoque HAIC se generaliza, las empresas y reguladores tendrán que evaluar la IA de manera más compleja y durante más tiempo — pero con menor riesgo de invertir en un sistema que se ve bien en benchmarks pero falla en un proceso real.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.