DeepMind y la «minería» de funciones de activación: por qué ReLU debería jubilarse
Durante décadas, vivimos en un mundo donde la función de activación ReLU era un estándar inamovible. Era simple como un ladrillo, y efectiva lo justo para no…
Procesado por IA desde Jiqizhixin (机器之心); editado por Hamidun News
Durante décadas, vivimos en un mundo donde la función de activación ReLU era un estándar inamovible. Era simple como un ladrillo, y efectiva lo justo para no interferir en el aprendizaje de las redes neuronales. Pero seamos honestos: ReLU (Rectified Linear Unit) se hizo popular no porque fuera ideal, sino porque en 2012 no teníamos recursos para probar algo más complejo.
Ahora DeepMind ha decidido que es hora de dejar de adivinar y ha convertido la búsqueda de fórmulas matemáticas en una verdadera minería industrial. El equipo de investigadores construyó lo que llaman una "mina computacional." La idea es simple y a la vez insensata: si no sabemos qué función matemática es mejor para el aprendizaje profundo, probemos todas.
Este es el método clásico de fuerza bruta, llevado a su límite absoluto. En lugar de hacer que matemáticos pasen años derivando pruebas elegantes, DeepMind lanzó miles de procesadores gráficos para "excavar" el algoritmo perfecto. ¿Por qué está pasando esto ahora?
El mercado de LLM ha alcanzado un techo de eficiencia. Seguimos aumentando el número de parámetros, pero los bloques básicos de los modelos apenas cambian. DeepMind se dio cuenta de que incluso una pequeña ganancia de eficiencia a nivel de función de activación, a la escala de GPT-4 o Gemini, ahorra millones de dólares en electricidad y semanas de tiempo de entrenamiento.
Esto no es solo interés académico, es pura economía. En el proceso de su "minería," el sistema probó millones de combinaciones de operadores matemáticos. Los investigadores buscaban funciones que no solo mostraran alta precisión en el papel, sino que también "funcionaran bien" con hardware moderno.
Resultó que muchas funciones teóricamente fuertes son demasiado complejas para cálculos en GPU, lo que las hace inútiles en la producción real. DeepMind buscaba el término medio: simplicidad computacional y flexibilidad matemática. Los resultados son impresionantes.
Las funciones descubiertas superan no solo la vieja y confiable ReLU, sino también alternativas más modernas como Swish o GeLU. Lo más interesante aquí es el cambio de paradigma. Estamos pasando de la era de "personas inteligentes inventando algoritmos" a la era de "sistemas inteligentes cultivando algoritmos."
Este es el verdadero AutoML, de lo que hemos estado soñando durante cinco años, pero ahora ha llegado a los cimientos mismos de las conexiones neuronales. ¿Qué significa esto para la industria? Lo más probable es que en la próxima generación de grandes modelos de lenguaje veamos arquitecturas que nos parecerán extrañas.
Usarán funciones que ninguna persona cuerda jamás derivaría en una pizarra, porque no se ven "bonitas" desde la perspectiva del análisis matemático clásico. Pero funcionarán. Y funcionarán más rápido que cualquier cosa que hayamos visto antes.
Lo clave: DeepMind ha demostrado claramente que la "fiebre del oro" en IA se está trasladando del ámbito de los conjuntos de datos gigantes al ámbito de reinventar las matemáticas básicas. Si pensabas que los fundamentos del aprendizaje profundo ya estaban cimentados, prepárate: los están derribando con un martillo neumático.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.