KDnuggets→ original

Miles de millones de parámetros: cómo medimos la inteligencia en números

Cada vez que ocurre un gran lanzamiento de IA en la industria, la primera pregunta en los comentarios suena igual: "¿Cuántos parámetros tiene?" Esto se ha…

Procesado por IA desde KDnuggets; editado por Hamidun News
Miles de millones de parámetros: cómo medimos la inteligencia en números
Fuente: KDnuggets. Collage: Hamidun News.
◐ Escuchar artículo

Cada vez que ocurre un gran lanzamiento de IA en la industria, la primera pregunta en los comentarios suena igual: "¿Cuántos parámetros tiene?" Esto se ha convertido en una especie de medida de sofisticación, equivalente a caballos de potencia en el mundo de los motores de combustión interna. Nos hemos acostumbrado a cifras como 7, 70 o incluso 175 mil millones, pero rara vez nos preguntamos qué significan exactamente.

Si dejamos a un lado la mercadotecnia, un parámetro es simplemente un número. Pero es a partir de estos números que se teje el tejido del aprendizaje automático moderno. Para entender la esencia, imagina un panel de control gigante con miles de millones de botones e interruptores.

Cada uno de estos interruptores es un parámetro. Cuando se crea un modelo, todos estos botones se configuran aleatoriamente. Si le hicieras a un modelo "vacío" como este una pregunta sobre el sentido de la vida, producirías una cadena aleatoria de caracteres.

El proceso de entrenamiento es el ajuste meticuloso de cada uno de los miles de millones de parámetros hasta que aparece texto o imágenes significativas en la salida.

Históricamente, hemos seguido el camino del aumento. Las redes neuronales tempranas funcionaban con miles de parámetros y solo podían reconocer dígitos manuscritos. Luego vino la era del Deep Learning, y el recuento llegó a millones.

El verdadero avance ocurrió con la llegada de la arquitectura Transformer, que permitió escalar modelos a límites increíbles. Cuando OpenAI lanzó GPT-3 con 175 mil millones de parámetros, el mundo se estremeció. Parecía que habíamos encontrado una fórmula universal: simplemente agrega más parámetros y datos, y el modelo se vuelve más inteligente.

Este fenómeno se llamó Scaling Laws. Sin embargo, en esta carrera por el tamaño, nos encontramos con la ley de los rendimientos decrecientes. Los modelos masivos requieren una potencia computacional colosal, consumen electricidad como ciudades pequeñas y funcionan lentamente.

¿Qué hacen realmente estos parámetros dentro del modelo? En términos técnicos, se dividen en pesos e sesgos. Los pesos determinan la fuerza de las conexiones entre neuronas: cuán fuertemente una palabra en contexto debe influir en la elección de la siguiente palabra.

Los sesgos ayudan al modelo a corregir sus predicciones cuando los datos se desvían de la norma. En el proceso de retropropagación de errores (backpropagation), el algoritmo calcula en qué dirección girar cada uno de los miles de millones de "botones" para que la siguiente respuesta sea un poco más precisa. Este proceso se repite billones de veces en enormes conjuntos de datos de Internet, libros y código.

Como resultado, los parámetros cristalizan el conocimiento humano dentro de ellos, convirtiéndose en una especie de base de datos comprimida que no solo sabe cómo almacenar hechos, sino también cómo combinarlos.

Sin embargo, la moneda tiene un lado negativo: el sobreajuste. Si tienes demasiados parámetros pero datos de calidad insuficiente, el modelo puede simplemente "memorizar" el conjunto de entrenamiento. Se convierte en un estudiante brillante en exámenes con preguntas familiares, pero fracasa completamente en la vida real cuando se enfrenta a una tarea desconocida. Este es uno de los principales desafíos del desarrollo moderno: cómo equilibrar la potencia del modelo con su capacidad de generalización. Además, cada vez vemos más que los trucos arquitectónicos, como Mixture of Experts (MoE), permiten el uso de billones de parámetros sin activarlos todos a la vez. Esto hace que los modelos sean más eficientes, aunque su tamaño continúa creciendo formalmente.

Hoy, la industria se está alejando gradualmente del culto del "gigantismo". Vemos el surgimiento de pequeños modelos de lenguaje (SLM), que con 7 mil millones de parámetros muestran resultados mejores que los viejos gigantes con 100 mil millones. Esto ocurre gracias a la limpieza de datos de mayor calidad y métodos de entrenamiento inteligentes.

Los parámetros han dejado de ser solo un número en un comunicado de prensa; se han convertido en un recurso que necesita gastarse sabiamente. En última instancia, lo que importa no es cuántos "botones" tienes en tu panel de control, sino cuán precisamente están ajustados. Estamos entrando en una era en la que la eficiencia arquitectónica y la densidad de conocimiento en cada parámetro importan mucho más que su cantidad total.

La conclusión: la carrera por la cantidad de parámetros está siendo reemplazada por una carrera por su calidad. ¿Podría un modelo con 1 mil millón de parámetros alguna vez igualar el cerebro humano a través del ajuste perfecto?

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…