IEEE Spectrum AI→ original

Stanford présente la puce Onyx pour l'IA clairsemée : 8 fois plus rapide que le CPU et 70 fois plus efficace

Stanford a dévoilé Onyx, un accélérateur programmable pour les calculs d'IA clairsemée. La puce ne gaspille pas de ressources sur les opérations nulles…

Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Stanford présente la puce Onyx pour l'IA clairsemée : 8 fois plus rapide que le CPU et 70 fois plus efficace
Source : IEEE Spectrum AI. Collage: Hamidun News.
◐ Écouter l'article

Des chercheurs de Stanford ont présenté l'accélérateur Onyx, qui peut extraire des bénéfices des « zéros » à l'intérieur des modèles d'IA. L'idée est de ne pas gaspiller d'énergie sur les multiplications et additions qui ne changent rien d'avance, et ainsi accélérer les calculs sans abandonner les grands modèles.

Pourquoi les zéros sont importants

Dans les réseaux de neurones, les données, les poids et les activations sont stockés sous forme de tableaux de nombres — vecteurs, matrices et tenseurs. Dans de nombreux cas, une part importante de ces nombres est zéro ou tellement proche de zéro qu'elle peut être considérée comme zéro sans perte notable de qualité. Cette propriété s'appelle la clairsemence.

Si plus de la moitié sont des zéros, le modèle peut déjà bénéficier d'algorithmes spécialisés : au lieu de stocker et traiter la matrice entière, le système ne sauvegarde que les valeurs utiles et ignore les opérations vides. Pour l'industrie, c'est important car les modèles croissent plus vite que l'infrastructure ne devient moins chère. Plus il y a de paramètres, plus la qualité est élevée, mais aussi plus coûteux est le fonctionnement en termes de temps, d'énergie et d'empreinte carbone.

L'article donne un exemple de Meta Llama avec 2 billions de paramètres. Les chercheurs rappellent aussi les résultats de Cerebras : sur Llama 7B, ils ont réussi à annuler 70–80 pour cent des paramètres sans perte de précision. Cela signifie qu'à l'intérieur des grands modèles se cache déjà une réserve d'accélération — il suffit d'apprendre à l'utiliser.

Où l'efficacité se perd

Le problème est que le matériel populaire a été conçu dès le départ pour les calculs denses, pas les structures clairsemées. Lorsque les données sont compressées, il faut stocker des métadonnées avec les valeurs non nulles — indices de lignes, indices de colonnes et segments. L'accès à ces données devient indirect et imprévisible : le processeur doit d'abord trouver les coordonnées, puis la valeur elle-même. En conséquence, une partie du temps est consacrée non pas aux mathématiques, mais à l'errance en mémoire et aux opérations de service.

  • Les GPU excellent avec les matrices denses, mais avec une clairsemence aléatoire, ils parallélisent souvent des opérations inutiles avec des zéros.
  • La clairsemence structurée ne aide pas toujours, car elle nécessite un motif rigide d'annulation, par exemple deux zéros sur quatre paramètres adjacents.
  • Les CPU sont plus flexibles, mais se heurtent souvent à des défauts du préchargeur et à des accès mémoire imprévisibles.
  • Même les bibliothèques clairsemées ne réduisent pas tous les frais généraux, car certaines ressources vont à la maintenance des données elles-mêmes.

Les fabricants cherchent déjà des solutions de contournement, mais pour l'instant elles sont ponctuelles. Apple a accéléré les accès indirects à la mémoire dans les puces A14 et M1, Cerebras promeut l'approche clairsemée dans son Wafer Scale Engine, et Meta développe MTIA. Mais il y a aussi des limitations : certaines solutions ne fonctionnent qu'avec la clairsemence des poids, d'autres ne révèlent le support que pour des opérations individuelles comme la multiplication de matrices. Pour les charges d'IA réelles, c'est insuffisant, car les modèles ne consistent pas en une opération, mais en une longue chaîne de différentes couches et transformations.

Comment Onyx est construit

L'équipe de Stanford est partie de zéro et a créé Onyx — un accélérateur programmable qui peut travailler également bien avec des calculs clairsemés et denses. Au cœur de celui-ci se trouve l'architecture CGRA, une option intermédiaire entre CPU et FPGA : elle est nettement plus flexible qu'un processeur classique, mais en même temps plus efficace que les circuits totalement configurables au niveau des bits. Onyx se compose de blocs de calcul et de blocs mémoire, qui stockent des matrices comprimées et les traitent immédiatement sous cette forme, sans les étendre au format dense à moins que cela ne soit nécessaire.

Le compilateur est particulièrement important : il traduit des expressions comme la multiplication d'une matrice clairsemée par un vecteur en un graphe de mémoire et de calculs, puis le distribue entre les blocs de la puce. Selon les données de Stanford, en moyenne Onyx consommait 70 fois moins d'énergie que le CPU et exécutait les calculs environ 8 fois plus rapidement. Par la métrique energy-delay product, le gain a atteint 565 fois par rapport à un Intel Xeon 12 cœurs avec des bibliothèques clairsemées.

La prochaine génération d'Onyx devrait ajouter le support des couches non linéaires, de la normalisation, de softmax et d'une commutation plus pratique entre les modes clairsemé et dense.

Ce que cela signifie

L'idée principale de l'article n'est pas qu'une autre puce d'IA a fait son apparition, mais que les développeurs commencent à optimiser les modèles non seulement en réduisant la précision ou la taille, mais aussi par la structure des calculs eux-mêmes. Si l'approche clairsemée prend racine, les grands modèles pourront fonctionner moins cher et plus rapidement, ce qui signifie que le prochain saut en IA pourrait provenir non seulement de nouveaux modèles, mais aussi d'une nouvelle classe de matériel.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…