Ley de Escalamiento en piloto automático: IA comenzó a enseñar a la gente a construir redes neuronales
Imagina que estás construyendo un rascacielos pero no sabes con seguridad si la cimentación aguantará diez plantas más. En el mundo de los grandes modelos de…
Procesado por IA desde Jiqizhixin (机器之心); editado por Hamidun News
Imagina que estás construyendo un rascacielos pero no sabes con seguridad si la cimentación aguantará diez plantas más. En el mundo de los grandes modelos de lenguaje, todo funciona más o menos igual. Los ingenieros gastan cientos de millones de dólares en entrenamiento, esperando que añadir unos miles de tarjetas gráficas más haga el modelo más inteligente, no solo más caro. Estas reglas implícitas del juego se llaman Leyes de Escalabilidad (Scaling Laws), y hasta ahora su búsqueda se parecía a la alquimia moderna. Pero parece que la era de la adivinación está llegando a su fin, porque investigadores de la Universidad de Pekín y Stanford han decidido confiar este trabajo aburrido y costoso a la propia red neuronal.
El problema es que encontrar estas leyes es un proceso angustioso y prohibitivamente costoso. Recuerda el famoso trabajo de DeepMind sobre el "modelo Chinchilla" (Chinchilla scaling laws). Entonces, los investigadores tuvieron que entrenar docenas de modelos pequeños, recopilar datos sobre su desempeño e intentar derivar una fórmula que predijera el comportamiento del "hermano mayor". Un error en los cálculos en esta etapa no cuesta solo tiempo—cuesta una fortuna.
El nuevo proyecto, con el nombre de trabajo "AI Scientist", cambia fundamentalmente las reglas del juego. En lugar de obligar a las personas a seleccionar manualmente coeficientes y construir gráficos, los científicos crearon un sistema que analiza los resultados de ejecuciones de prueba y formula dependencias matemáticas por sí solo. Lo más irónico aquí es que este científico virtual realizó la tarea mejor que expertos vivos. Durante las pruebas, el sistema predijo la precisión de los modelos con un margen de error que resultó ser significativamente menor que el de científicos de datos experimentados.
No es simplemente una cuestión de velocidad o conveniencia. Estamos acostumbrados a pensar que el descubrimiento científico y la intuición son los últimos bastiones de la humanidad, pero resultó que en la búsqueda de patrones ocultos dentro de enormes conjuntos de datos, nuestro cerebro es demasiado propenso a la simplificación. La IA no busca números "bonitos" o gráficos lineales simples; encuentra las dependencias que realmente funcionan en el espacio multidimensional de parámetros.
¿Por qué es importante ahora? Hemos llegado a un punto donde simplemente añadir potencia computacional ya no produce un crecimiento explosivo en calidad. La industria cada vez más susurra sobre una "meseta", y para avanzar, necesitamos no solo teraflops sino precisión quirúrgica en la arquitectura. Si antes OpenAI o Google podían permitirse quemar electricidad en ciudades enteras por el bien de un experimento, ahora los inversores exigen eficiencia.
Automatizar la búsqueda de Leyes de Escalabilidad es esencialmente crear un navegador para quienes antes caminaban con instrumentos en una niebla espesa. Ahora podemos saber de antemano si vale la pena alimentar el modelo con otro billón de tokens o si ya ha alcanzado su límite.
¿Qué significa esto para el futuro de la industria? Probablemente veremos una aceleración abrupta de los ciclos de desarrollo. Si antes tomaba meses verificar una hipótesis fundamental, ahora un sistema automatizado puede ejecutar miles de escenarios en apenas horas. Esto nos acerca al momento en que las redes neurales comiencen a diseñar las siguientes generaciones de sí mismas con participación humana prácticamente nula. Aún tenemos la mano en el interruptor, pero alguien más está dibujando los planos. Y ese "alguien" claramente entiende las matemáticas del aprendizaje mejor que nosotros.
En conclusión: La IA finalmente ha dejado de ser simplemente un "chatbot inteligente" y se ha convertido en una herramienta para descubrimientos científicos fundamentales. Si las redes neurales han aprendido a optimizar su propio entrenamiento mejor que sus creadores, entonces la pregunta sobre la aparición de un AGI completo se convierte meramente en una cuestión de tiempo y la fórmula correcta—una que probablemente será encontrada no por un humano.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.