IEEE Spectrum AI→ original

Stanford presenta chip Onyx para IA dispersa: 8 veces más rápido que CPU y 70 veces más eficiente

Stanford reveló Onyx, un acelerador programable para computaciones de IA dispersa. El chip no desperdicia recursos en operaciones con ceros, logrando…

Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
Stanford presenta chip Onyx para IA dispersa: 8 veces más rápido que CPU y 70 veces más eficiente
Fuente: IEEE Spectrum AI. Collage: Hamidun News.
◐ Escuchar artículo

Investigadores de Stanford presentaron el acelerador Onyx, que puede extraer beneficios de los "ceros" dentro de modelos de IA. La idea es no desperdiciar energía en multiplicaciones y sumas que no cambian nada de antemano, y así acelerar los cálculos sin abandonar modelos grandes.

Por qué los ceros son importantes

En redes neuronales, los datos, pesos y activaciones se almacenan como arrays de números — vectores, matrices y tensores. En muchos casos, una parte significativa de estos números son cero o tan cercanos a cero que pueden considerarse cero sin pérdida notable de calidad. Esta propiedad se llama dispersidad.

Si más de la mitad son ceros, el modelo ya puede beneficiarse de algoritmos especializados: en lugar de almacenar y procesar la matriz completa, el sistema guarda solo valores útiles y omite operaciones vacías. Para la industria esto es importante porque los modelos crecen más rápido que la infraestructura se abarata. Cuantos más parámetros, mayor la calidad, pero también más caro es ejecutarlo en términos de tiempo, energía y huella de carbono.

El artículo proporciona un ejemplo de Meta Llama con 2 billones de parámetros. Los investigadores también recuerdan resultados de Cerebras: en Llama 7B lograron anular 70–80 por ciento de los parámetros sin pérdida de precisión. Esto significa que dentro de modelos grandes ya hay una reserva oculta para aceleración — solo hay que aprender a utilizarla.

Dónde se pierde la eficiencia

El problema es que el hardware popular fue construido desde el principio para cálculos densos, no estructuras dispersas. Cuando los datos se comprimen, junto con valores distintos de cero, debe almacenarse metadatos — índices de filas, índices de columnas y segmentos. El acceso a tales datos se vuelve indirecto e impredecible: el procesador primero tiene que encontrar coordenadas, luego el valor real. Como resultado, parte del tiempo se dedica no a matemáticas, sino a navegar por la memoria y operaciones de servicio.

  • Las GPU funcionan bien con matrices densas, pero con dispersidad aleatoria frecuentemente paralelizan operaciones inútiles con ceros.
  • La dispersidad estructurada no siempre ayuda, porque requiere un patrón rígido de anulación, por ejemplo dos ceros de cada cuatro parámetros adyacentes.
  • Las CPU son más flexibles, pero a menudo se encuentran con fallos de prefetcher y accesos a memoria impredecibles.
  • Incluso las bibliotecas sparse no reducen toda la sobrecarga, porque algunos recursos se dedican al mantenimiento de los propios datos.

Los fabricantes ya buscan soluciones alternativas, pero por ahora son solo puntuales. Apple aceleró los accesos indirectos a memoria en chips A14 y M1, Cerebras promueve el enfoque sparse en su Wafer Scale Engine, y Meta está desarrollando MTIA. Pero aquí también hay limitaciones: algunas soluciones funcionan solo con dispersidad de pesos, otras revelan soporte solo para operaciones individuales como multiplicación de matrices. Para cargas reales de IA esto es insuficiente, porque los modelos no consisten en una operación, sino en una larga cadena de diferentes capas y transformaciones.

Cómo está construido Onyx

El equipo de Stanford partió de cero y creó Onyx — un acelerador programable que puede trabajar igualmente bien con cálculos dispersos y densos. En su núcleo está la arquitectura CGRA, una opción intermedia entre CPU y FPGA: es notablemente más flexible que un procesador clásico, pero al mismo tiempo más eficiente que circuitos totalmente configurables a nivel de bits. Onyx consta de bloques computacionales y bloques de memoria, que almacenan matrices comprimidas y las procesan inmediatamente en esa forma, sin expandir nuevamente al formato denso a menos que sea necesario.

El compilador es particularmente importante: traduce expresiones como multiplicar una matriz dispersa por un vector en un gráfico de memoria y cálculos, y luego lo distribuye entre los bloques del chip. Según datos de Stanford, en promedio Onyx consumió 70 veces menos energía que CPU y ejecutó cálculos aproximadamente 8 veces más rápido. Por la métrica energy-delay product, la ganancia alcanzó 565 veces en relación a un Intel Xeon de 12 núcleos con bibliotecas sparse.

La próxima generación de Onyx debe añadir soporte para capas no lineales, normalización, softmax e intercambio más conveniente entre modos sparse y densos.

Qué significa esto

La idea principal del artículo no es que haya aparecido otro chip de IA, sino que los desarrolladores están comenzando a optimizar modelos no solo reduciendo precisión o tamaño, sino también por la estructura de los propios cálculos. Si el enfoque disperso se afianza, los modelos grandes podrán ejecutarse más barato y rápido, lo que significa que el próximo salto en IA puede provenir no solo de nuevos modelos, sino también de una nueva clase de hardware.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…