TechCrunch→ original

Estudiantes de posgrado de Berkeley se convirtieron en los principales árbitros de la industria de IA: cómo Arena decide cuál es el mejor modelo

Estudiantes de posgrado de UC Berkeley crearon Arena — el principal ranking de modelos de lenguaje de facto. En siete meses, el proyecto creció de un…

Procesado por IA desde TechCrunch; editado por Hamidun News
Estudiantes de posgrado de Berkeley se convirtieron en los principales árbitros de la industria de IA: cómo Arena decide cuál es el mejor modelo
Fuente: TechCrunch. Collage: Hamidun News.
◐ Escuchar artículo

Mientras que las empresas de IA compiten por el título de mejor modelo, la autoridad para emitir un veredicto ha recaído en un grupo de estudiantes de posgrado de la Universidad de California en Berkeley. Arena, anteriormente conocida como LM Arena, se ha convertido en la principal tabla de clasificación pública para modelos de frontera. Sus posiciones son citadas en comunicados de prensa, consideradas por inversores de riesgo y utilizadas por equipos de desarrollo al elegir un modelo base.

En solo siete meses, el proyecto se transformó de un experimento académico en una startup completamente desarrollada con una influencia real en la industria. El principio de funcionamiento de Arena se basa en el crowdsourcing: los usuarios comparan respuestas de dos modelos anónimos y votan por el mejor. El sistema acumula millones de tales comparaciones y las traduce en una clasificación utilizando el método Elo—las mismas matemáticas que clasifican a los ajedrecistas.

El anonimato de los modelos elimina el sesgo de marca: el usuario no sabe de quién es la respuesta que está leyendo hasta votar. La infraestructura que surgió de un proyecto universitario ahora influye en los principales actores del mercado. Cuando OpenAI, Google o Anthropic lanzan un nuevo modelo, uno de los primeros indicadores de éxito es su posición en Arena.

Los fondos de inversión vigilan la clasificación al tomar decisiones de inversión. Los equipos de marketing construyen campañas de relaciones públicas alrededor de una línea en la tabla de clasificación. Sin embargo, el sistema tiene limitaciones obvias.

El público de internet vota, no una muestra representativa de profesionales. Las tareas que los usuarios plantean a los modelos no siempre reflejan escenarios reales de producción. Finalmente, los usuarios activos de Arena suelen ser entusiastas técnicamente competentes, no el cliente corporativo promedio.

No obstante, Arena ha llenado un vacío que los benchmarks académicos no pudieron cerrar. Las pruebas estándar como MMLU o HumanEval miden capacidades limitadas en condiciones controladas. Arena mide algo más difícil de formalizar: si a la gente le gusta esa respuesta.

Este sentimiento es lo que finalmente determina qué modelo elegirá un usuario. La historia de Arena es un ejemplo ilustrativo de cómo la comunidad académica puede establecer estándares en una industria en rápido desarrollo, donde las corporaciones no tienen ni el tiempo ni los incentivos para crear una infraestructura de evaluación neutral. La pregunta es si esta neutralidad se preservará a medida que la startup crece y atrae financiamiento externo.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…