TechCrunch→ original

Google présente TurboQuant — un algorithme qui compresse par six la mémoire de travail de l’AI

Google a annoncé TurboQuant — un algorithme de compression de la mémoire de travail des réseaux neuronaux avec un facteur annoncé pouvant atteindre six fois…

Traité par IA depuis TechCrunch ; édité par Hamidun News
Google présente TurboQuant — un algorithme qui compresse par six la mémoire de travail de l’AI
Source : TechCrunch. Collage: Hamidun News.
◐ Écouter l'article

Google a annoncé TurboQuant — un nouvel algorithme pour compresser la mémoire de travail des réseaux neuronaux qui, selon l'entreprise, peut réduire la consommation de mémoire jusqu'à six fois. L'annonce a immédiatement déclenché une vague de blagues dans la communauté technologique : les utilisateurs du monde entier comparent le développement à Pied Piper — un algorithme fictif de la série HBO "Silicon Valley", devenu un symbole culte du battage médiatique technologique infondé. Pour l'instant, TurboQuant reste une expérience de laboratoire : l'entreprise n'a divulgué ni article technique, ni code public, ni calendriers de déploiement commercial.

Pourquoi la mémoire des réseaux neuronaux est un problème critique

Les grands modèles de langage exigent d'énormes volumes de mémoire GPU. Ce problème a deux dimensions. La première est statique : les poids du modèle lui-même.

Llama 3.1 avec 70 milliards de paramètres occupe environ 140 gigaoctets en précision complète. La deuxième dimension est dynamique : les calculs intermédiaires que le modèle effectue lors du traitement de chaque demande.

Ces données temporaires sont appelées activations, et ce sont elles qui deviennent le principal goulot d'étranglement lors du travail avec des contextes longs. Quand un modèle traite un document de 100 000 tokens, il doit conserver en mémoire les résultats de calcul de chaque couche pour chaque token — le cache KV dit. Le volume de ces données croît linéairement avec la longueur du contexte et peut dépasser le volume des poids eux-mêmes avec une entrée suffisamment longue.

C'est exactement ici que TurboQuant offre une solution radicale.

Comment TurboQuant Fonctionne

L'algorithme applique la quantification — une technique pour réduire la précision numérique — directement aux activations en temps réel. La quantification standard a été appliquée pendant des décennies aux poids de modèle statiques : utiliser des entiers de 8 bits ou 4 bits au lieu de nombres flottants 32 bits. Cela fonctionne bien pour les poids immuables car la plage de valeurs est prévisible.

Les activations sont une affaire complètement différente. Leurs valeurs varient de manière imprévisible en fonction de la demande spécifique, ce qui rend la quantification standard inefficace sans perte de qualité. Google affirme que TurboQuant résout ce problème à l'aide de méthodes adaptatives qui tiennent compte des statistiques d'activation à la volée.

Selon l'entreprise, cela permet d'obtenir une compression six fois supérieure sans dégradation significative de la qualité des réponses.

Ce que signifierait la confirmation des résultats

Même des résultats pratiques plus modestes — une compression deux à trois fois supérieure — changeraient l'économie de l'infrastructure d'IA. Les plus grands fournisseurs de cloud dépensent des dizaines de milliards de dollars chaque année en infrastructure GPU pour traiter les demandes de modèles. Une partie importante de ces coûts est due aux exigences de mémoire lors de l'inférence.

Compresser les activations signifierait des modèles plus puissants sur le même matériel, une latence plus faible grâce à la réduction des opérations mémoire et la capacité à gérer des contextes longs sans dégradation des performances. Pour les appareils périphériques, les conséquences sont encore plus importantes. Actuellement, l'exécution de modèles au niveau de Llama 3.

1 70B nécessite plusieurs cartes graphiques ou des compromis agressifs sur la précision. TurboQuant pourrait réduire considérablement cette barrière — ouvrant des modèles puissants aux ordinateurs portables et aux stations de travail avec mémoire limitée.

Le Phénomène Pied Piper et Ce Qui Se Cache Derrière

La comparaison avec Pied Piper est plus qu'un simple mème. Dans la série, une startup fictive crée un algorithme de compression universelle aux caractéristiques fantastiques, basé sur le "coefficient de Weissman" original. Les parallèles avec TurboQuant sont évidents : des chiffres révolutionnaires, du code fermé, l'absence de vérification indépendante.

La différence est que Google DeepMind n'est pas une startup de garage. L'entreprise a un long palmarès de réalisations réelles dans le domaine de l'efficacité : Flash Attention, optimisation du cache KV, algorithmes de distillation. Si TurboQuant a réussi l'examen interne et a été annoncé publiquement, il représente très probablement un résultat réel.

L'étape suivante obligatoire est la publication sur arXiv et la reproduction indépendante des résultats par des chercheurs tiers. Jusqu'à ce moment, TurboQuant reste une promesse. Si les résultats sont confirmés, les blagues sur Pied Piper appartiendront au passé avec le problème de mémoire des réseaux neuronaux — et ce serait un bon résultat.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…