304 LLMs chinos: por qué entre cientos de redes neuronales no encontraron un rey

Q: ¿Cuál es la fuente?

Publicado originalmente en Jiqizhixin (机器之心). Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

3 feb 2026. Tiempo de lectura: 2 min.

¿Recuerdas los tiempos cuando cada nuevo anuncio de China venía acompañado de gritos sobre la "muerte del GPT-4"? Bueno, el polvo se ha asentado un poco, e…

Redacción de Hamidun News

Monitoreo de AI · Jiqizhixin (机器之心)

3 feb 2026· 2 min

Procesado por IA desde Jiqizhixin (机器之心); editado por Hamidun News

304 LLMs chinos: por qué entre cientos de redes neuronales no encontraron un rey — Fuente: Jiqizhixin (机器之心). Collage: Hamidun News.

◐ Escuchar artículo

¿Recuerdas los tiempos cuando cada nuevo anuncio de China venía acompañado de gritos sobre la "muerte del GPT-4"? Bueno, el polvo se ha asentado un poco, e investigadores decidieron realizar un inventario a gran escala de lo que realmente generó la famosa "batalla de mil modelos". Los resultados resultaron desalentadores.

Después de probar 304 grandes modelos de lenguaje chinos, resultó que no hay un líder universal en el mercado. Un modelo excele en escribir código, el segundo se hace pasar magistralmente por poeta, y el tercero se desenvuelve bastante bien en lógica, pero nadie ha logrado aún combinar todo esto en un único "frasco". Estamos observando una situación en la que la cantidad se ha convertido en cualquier cosa, menos en calidad.

El problema principal ahora ni siquiera es que los modelos no sean lo suficientemente inteligentes. La industria se ha encontrado con lo que se llama un "cuello de botella de evaluación". Cuando tienes trescientas redes neuronales en tu país, verificar cada una para adecuación se convierte en una tarea de proporciones épicas.

Los benchmarks tradicionales han sido comprometidos hace mucho: los desarrolladores simplemente "hacen trampa" buscando respuestas en las pruebas y entrenan sus modelos con ellas. Para obtener un resultado honesto, necesitas personas reales o verificaciones en cascada complejas, y eso cuesta sumas astronómicas. En algún momento, el proceso de auditoría de IA pasó a costar a las empresas casi tanto como el alquiler de tarjetas gráficas para entrenamiento.

Ante esto, la solución del equipo ReLE parece un intento de salvar los presupuestos de los capitalistas de riesgo. Propusieron la arquitectura Reinforcement Learning from Evaluation. Sin entrar en los detalles de las fórmulas, esta es una forma de optimizar el propio proceso de prueba.

En lugar de ejecutar un modelo a través de miles de preguntas similares, el sistema aprende a seleccionar solo las tareas más informativas y difíciles. Es como si en un examen un profesor te hiciera responder inmediatamente tres de las preguntas más complicadas, en lugar de torturarte durante tres horas en todo el currículo. El resultado es el mismo, pero gastas 70% menos tiempo y recursos.

¿Por qué es esto importante para nosotros? El mercado de IA chino siempre ha sido un reflejo hipertrofiado de las tendencias globales. Si comenzaron a quejarse masivamente sobre los costos de evaluación, significa que pronto este problema también golpeará a las startups occidentales.

Estamos entrando en una era donde la "eficiencia" se vuelve más importante que la "potencia". Los inversores ya no quieren escuchar sobre cuántos billones de parámetros metiste en tu modelo. Quieren saber cómo planeas probar su viabilidad sin gastar toda tu próxima ronda de financiación en ello.

También es interesante cómo está cambiando el panorama del desarrollo. Mientras gigantes como Baidu o Alibaba intentan construir esos sistemas universales, pequeños equipos encuentran salvación en especialización estrecha. La investigación mostró que los modelos especializados a menudo superan a los "generalistas" en sus nichos mientras requieren decenas de veces menos recursos.

Esto cuestiona el concepto mismo de crear una red neuronal que haga tanto borsch como lance cohetes al espacio. Quizás el futuro no está con un rey, sino con un consejo armonioso de ministros. El punto principal: la era del escalamiento irreflexivo está llegando a su fin.

Ahora el ganador será no quien entrene el modelo más grande, sino quien aprenda más rápido y barato a separar el grano de la paja. ¿Se convertirá ReLE en un nuevo estándar de la industria o es solo un parche temporal en un mercado inflado?

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita