Habr AI→ original

Google a présenté TurboQuant : cache KV 3 bits pour LLM, mais le marché de la mémoire a paniqué prématurément

Google a présenté TurboQuant — une méthode pour compresser le cache KV de LLM à 3 bits et réduire considérablement la consommation VRAM sur les longs…

Traité par IA depuis Habr AI ; édité par Hamidun News
Google a présenté TurboQuant : cache KV 3 bits pour LLM, mais le marché de la mémoire a paniqué prématurément
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Google Research a présenté TurboQuant — un algorithme qui promet de compresser le KV-cache des modèles de langage à 3 bits sans réentraînement et avec presque aucune perte de qualité. Face à ces affirmations, le marché de la mémoire a rapidement pris peur, bien qu'une véritable révolution dans les centres de données soit encore loin.

Pourquoi le marché a réagi

Le 24 mars 2026, Google Research a publié du matériel sur TurboQuant, et seulement deux jours plus tard, les investisseurs ont commencé à vendre des actions de sociétés liées à la mémoire. SK Hynix a perdu 6,23%, Samsung a chuté de 4,8%, Micron et SanDisk aux États-Unis ont baissé d'environ 5% et 8% respectivement. La logique du marché semblait directe : si les grands modèles pouvaient fonctionner avec significativement moins de mémoire pour l'inférence, la demande de HBM et DRAM dans les centres de données devrait également diminuer. Mais cette interprétation s'est avérée trop simpliste et ne tenait pas compte de l'endroit exact où TurboQuant offrait des bénéfices.

Le problème auquel l'algorithme s'attaque ne concerne pas toute la mémoire du modèle, mais seulement le KV-cache. Ce sont des représentations auxiliaires de jetons qu'un transformateur stocke lors de la génération de texte pour éviter de les recalculer à chaque étape. Sur les contextes courts, le KV-cache interfère à peine, mais sur les longs, il devient le principal consommateur de mémoire. Pour les grands modèles avec des fenêtres de dizaines et de centaines de milliers de jetons, le volume d'un tel cache peut occuper des dizaines de gigaoctets et devenir un goulot d'étranglement lors de l'inférence massive.

Ce que fait TurboQuant

L'industrie a appris depuis longtemps à quantifier les poids des modèles : il existe GPTQ, AWQ et d'autres approches pour cela. Avec le KV-cache, la situation est plus complexe car il se crée en temps réel et est unique pour chaque requête. Vous ne pouvez pas préparer les données une fois, calibrer un schéma et puis simplement l'appliquer partout. Vous avez besoin d'une méthode qui peut rapidement compresser n'importe quel nouveau vecteur à la volée tout en ne compromettant pas la qualité de la réponse sur les contextes longs.

C'est précisément la tâche que TurboQuant tente de résoudre. Le schéma de Google est à deux étapes. D'abord, l'étape PolarQuant fait tourner le vecteur avec une matrice orthogonale aléatoire pour rendre la distribution des valeurs plus uniforme et prévisible. Après cela, vous pouvez appliquer un quantificateur optimal précalculé sans données d'étalonnage. Ensuite, l'étape QJL commence, qui encode le signe de l'erreur résiduelle avec un bit et réduit le biais systématique dans les produits scalaires. De ce fait, l'erreur ne s'accumule pas notablement sur une longue séquence de jetons, et le modèle préserve mieux la qualité de la réponse.

  • Représentation 3-bit du KV-cache sans réentraînement du modèle
  • Calcul des logits d'attention jusqu'à 8 fois plus rapide sur H100 selon les auteurs
  • Au moins 6 fois moins de VRAM pour le KV-cache lui-même
  • Pas d'étalonnage hors ligne obligatoire pour un modèle spécifique

Où la méthode a des limites

La nuance la plus importante est que la technologie semble encore prématurée en tant que norme industrielle. La communauté l'a déjà remarqué : sur les petits modèles jusqu'à 3B paramètres, une compression agressive à 3 bits peut considérablement dégrader la qualité, causer des répétitions et détériorer la cohérence du texte. Pour de nombreux scénarios pratiques, un mode 4-bit reste l'option la plus sûre.

De plus, Google n'a jusqu'à présent publié qu'un article de blog et une préimpression. Il n'existe pas encore d'implémentation officielle, et en date du 29 avril 2026, l'algorithme n'est pas intégré dans vLLM, llama.cpp ou SGLang.

Il y a aussi un différend scientifique sur la priorité de l'idée. Jianyang Gao, l'un des auteurs de l'algorithme antérieur RaBitQ, a affirmé que TurboQuant est trop similaire à leur approche et décrit incorrectement le prédécesseur. Parmi les griefs figurent la minimisation de la similitude méthodologique, une critique douteuse de la théorie de RaBitQ et une comparaison dans des conditions inégales : TurboQuant a été testé sur un GPU A100, tandis que RaBitQ dans l'un des benchmarks était en Python monothread.

La plainte a déjà été soumise au comité d'éthique de l'ICLR, et Google n'a pas encore fourni de réponse publique.

Ce que cela signifie

TurboQuant ne semble pas être un effondrement du marché de la mémoire, mais plutôt une amélioration significative à un point spécifique et étroit de l'inférence des LLM. Si Google libère le code et que la méthode entre dans les piles standard, les contextes longs deviendront moins chers, et exécuter de grands modèles sur du matériel plus modeste deviendra plus réaliste. Mais pour l'instant, c'est plutôt un résultat de recherche important qu'une révolution industrielle prête à l'emploi.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…