L'algorithme TurboQuant de Google fait chuter les actions des fabricants de mémoire après la publication de la recherche
Google a introduit TurboQuant — une méthode de compression de cache KV pour les LLMs qui réduit la consommation mémoire au moins six fois et, selon…
Traité par IA depuis TNW ; édité par Hamidun News
Google Research a présenté TurboQuant — un algorithme de compression pour les modèles d'IA qui réduit la mémoire cache clé-valeur d'au moins six fois sans perte de qualité notable. Le marché a réagi immédiatement : après la publication le 24 mars 2026, les investisseurs ont commencé à réévaluer combien de mémoire l'industrie de l'IA générative aurait réellement besoin.
Ce que Google a démontré
TurboQuant résout un goulot d'étranglement étroit mais coûteux dans l'inférence des grands modèles de langage — le cache clé-valeur, ou KV-cache. C'est un stockage de contexte qui permet au modèle de ne pas recalculer les tokens déjà traités. Plus la requête, le document ou le dialogue est long, plus rapidement ce cache grandit et plus il consomme de mémoire GPU.
Selon Google, la nouvelle méthode compresse le KV-cache à 3 bits par valeur au lieu des 16 bits standard et réduit la consommation de mémoire d'au moins six fois. Pour la pratique, c'est tout aussi important que pour la science. La mémoire libérée permet de servir plus de requêtes simultanées sur le même matériel, d'exécuter des fenêtres de contexte plus longues ou d'utiliser des modèles plus grands sans élargir le parc d'accélérateurs.
Les auteurs écrivent que TurboQuant ne nécessite pas de réentraînement ou de fine-tuning et sera présenté à ICLR 2026. Les tests ont utilisé des modèles des familles Gemma, Mistral et Llama, ainsi que des benchmarks standard de contexte long.
Comment fonctionne l'algorithme
TurboQuant repose sur un schéma en deux étapes. D'abord, la méthode PolarQuant convertit les vecteurs en représentation polaire pour éliminer les données de surcharge inutiles qui consomment normalement une partie des gains de la quantification traditionnelle. Ensuite, QJL est appliquée — une technique qui code l'erreur résiduelle avec seulement un bit supplémentaire par dimension et réduit les distorsions dans l'attention.
En résultat, la plupart du budget de bits va à préserver le sens sémantique des données d'origine plutôt qu'à surcharge technique.
Google appelle le KV-cache une « fiche de triche numérique haute
vitesse » pour le modèle.
- compression du KV-cache de 16 à 3 bits
- réduction minimale de mémoire de 6 fois
- accélération jusqu'à 8 fois du calcul d'attention sur Nvidia H100 en mode 4 bits
- fonctionnement sans entraînement et fine-tuning
- application non seulement dans les LLMs mais aussi dans la recherche vectorielle
Google affirme qu'on les tâches Needle in a Haystack, TurboQuant maintenait des résultats parfaits même avec compression de cache six fois plus. Sur LongBench et ZeroSCROLLS, la méthode a également égalé ou surpassé KIVI — l'une des approches de base bien connues pour la quantification de KV-cache.
Séparément, l'entreprise a testé TurboQuant pour la recherche vectorielle et a obtenu un meilleur rappel sans gros codebooks ni ajustement à des ensembles de données spécifiques. C'est déjà un domaine d'intérêt direct pour la recherche, la recommandation et les systèmes publicitaires.
Pourquoi le marché a réagi
Le marché boursier a entendu dans cette publication non pas un progrès académique mais un signal d'une possible réduction de la demande de mémoire pour l'infrastructure d'IA. En quelques heures après la publication de l'article, les actions de Micron ont chuté de 3%, Western Digital a baissé de 4,7% et SanDisk a baissé de 5,7%.
La logique est simple : si un composant clé de l'inférence nécessite soudainement nettement moins de mémoire, les futurs achats de HBM, DRAM et stockage pourraient ne pas paraître aussi linéaires que les investisseurs l'avaient prévu.
Mais cela ne signifie pas que l'industrie a soudainement besoin de six fois moins de matériel. La mémoire n'est qu'une ligne budgétaire dans les datacenters, et l'appétit des modèles pour le calcul croît plus vite que toute optimisation locale. Même les analystes avertissent contre des conclusions trop directes : les algorithmes de compression existaient auparavant mais ne se sont pas effondrés complètement la demande globale d'infrastructure.
L'histoire du calcul montre plus souvent l'effet inverse : une fois que les ressources deviennent moins chères, les entreprises commencent à construire des systèmes plus lourds et massifs avec le même budget.
Ce que cela signifie
TurboQuant n'est pas une raison de radier les fabricants de mémoire mais un indicateur initial d'une nouvelle étape dans la course à l'efficacité. Maintenant les gagnants ne seront pas seulement ceux qui achètent plus de GPUs mais aussi ceux qui savent mieux comprimer l'inférence sans perdre la qualité. Pour les produits d'IA, c'est une chance de réduire les coûts par requête, et pour le marché — un rappel que le logiciel influence déjà la capitalisation du matériel.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.