Jiqizhixin (机器之心)→ original

304 LLMs chinos: por qué entre cientos de redes neuronales no encontraron un rey

¿Recuerdas los tiempos cuando cada nuevo anuncio de China venía acompañado de gritos sobre la "muerte del GPT-4"? Bueno, el polvo se ha asentado un poco, e…

Procesado por IA desde Jiqizhixin (机器之心); editado por Hamidun News
304 LLMs chinos: por qué entre cientos de redes neuronales no encontraron un rey
Fuente: Jiqizhixin (机器之心). Collage: Hamidun News.
◐ Escuchar artículo

¿Recuerdas los tiempos cuando cada nuevo anuncio de China venía acompañado de gritos sobre la "muerte del GPT-4"? Bueno, el polvo se ha asentado un poco, e investigadores decidieron realizar un inventario a gran escala de lo que realmente generó la famosa "batalla de mil modelos". Los resultados resultaron desalentadores.

Después de probar 304 grandes modelos de lenguaje chinos, resultó que no hay un líder universal en el mercado. Un modelo excele en escribir código, el segundo se hace pasar magistralmente por poeta, y el tercero se desenvuelve bastante bien en lógica, pero nadie ha logrado aún combinar todo esto en un único "frasco". Estamos observando una situación en la que la cantidad se ha convertido en cualquier cosa, menos en calidad.

El problema principal ahora ni siquiera es que los modelos no sean lo suficientemente inteligentes. La industria se ha encontrado con lo que se llama un "cuello de botella de evaluación". Cuando tienes trescientas redes neuronales en tu país, verificar cada una para adecuación se convierte en una tarea de proporciones épicas.

Los benchmarks tradicionales han sido comprometidos hace mucho: los desarrolladores simplemente "hacen trampa" buscando respuestas en las pruebas y entrenan sus modelos con ellas. Para obtener un resultado honesto, necesitas personas reales o verificaciones en cascada complejas, y eso cuesta sumas astronómicas. En algún momento, el proceso de auditoría de IA pasó a costar a las empresas casi tanto como el alquiler de tarjetas gráficas para entrenamiento.

Ante esto, la solución del equipo ReLE parece un intento de salvar los presupuestos de los capitalistas de riesgo. Propusieron la arquitectura Reinforcement Learning from Evaluation. Sin entrar en los detalles de las fórmulas, esta es una forma de optimizar el propio proceso de prueba.

En lugar de ejecutar un modelo a través de miles de preguntas similares, el sistema aprende a seleccionar solo las tareas más informativas y difíciles. Es como si en un examen un profesor te hiciera responder inmediatamente tres de las preguntas más complicadas, en lugar de torturarte durante tres horas en todo el currículo. El resultado es el mismo, pero gastas 70% menos tiempo y recursos.

¿Por qué es esto importante para nosotros? El mercado de IA chino siempre ha sido un reflejo hipertrofiado de las tendencias globales. Si comenzaron a quejarse masivamente sobre los costos de evaluación, significa que pronto este problema también golpeará a las startups occidentales.

Estamos entrando en una era donde la "eficiencia" se vuelve más importante que la "potencia". Los inversores ya no quieren escuchar sobre cuántos billones de parámetros metiste en tu modelo. Quieren saber cómo planeas probar su viabilidad sin gastar toda tu próxima ronda de financiación en ello.

También es interesante cómo está cambiando el panorama del desarrollo. Mientras gigantes como Baidu o Alibaba intentan construir esos sistemas universales, pequeños equipos encuentran salvación en especialización estrecha. La investigación mostró que los modelos especializados a menudo superan a los "generalistas" en sus nichos mientras requieren decenas de veces menos recursos.

Esto cuestiona el concepto mismo de crear una red neuronal que haga tanto borsch como lance cohetes al espacio. Quizás el futuro no está con un rey, sino con un consejo armonioso de ministros. El punto principal: la era del escalamiento irreflexivo está llegando a su fin.

Ahora el ganador será no quien entrene el modelo más grande, sino quien aprenda más rápido y barato a separar el grano de la paja. ¿Se convertirá ReLE en un nuevo estándar de la industria o es solo un parche temporal en un mercado inflado?

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…