Google présente TurboQuant : compression du cache KV 6x pour les LLM sans perte de précision
Google a présenté TurboQuant — une nouvelle méthode pour compresser le cache KV des grands modèles de langage sans affinage supplémentaire et sans perte de…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Google Research a présenté TurboQuant — un algorithme de compression de cache KV pour les grands modèles de langage visant à résoudre l'une des principales limitations du contexte long. Selon l'entreprise, la méthode réduit la consommation de mémoire d'au moins six fois et dans certaines configurations accélère le calcul d'attention jusqu'à huit fois sans perte de qualité sur les tâches de benchmark.
Pourquoi le cache KV ralentit
Lorsqu'un LLM travaille avec un contexte long, il stocke les clés et valeurs intermédiaires dans le cache KV pour éviter de les recalculer pour chaque token. Cela économise les calculs, mais se heurte rapidement aux limites de mémoire : plus le modèle est grand et plus le dialogue ou le document est long, plus le cache grandit. En conséquence, le goulot d'étranglement devient non seulement le GPU lui-même, mais aussi le transfert de données entre la SRAM rapide et la mémoire HBM. Pour l'inference, cela est particulièrement problématique, car les longues requêtes commencent à coûter significativement plus cher à la fois en latence et en ressources matérielles.
Google compare le cache KV à une « antisèche numérique haute vitesse » que le modèle utilise à la place des calculs répétés.
La quantification standard résout partiellement le problème, mais elle a son propre effet secondaire : avec les données comprimées, des constantes de quantification supplémentaires doivent être stockées. Ces bits de surcharge consomment une partie des économies, en particulier quand il s'agit de milliards de valeurs dans un contexte long. C'est précisément là que Google construit TurboQuant : l'idée n'est pas simplement de compresser les vecteurs plus agressivement, mais de supprimer la surcharge inutile qui empêche de réaliser de véritables économies de mémoire.
Comment fonctionne TurboQuant TurboQuant se compose de deux étapes.
D'abord, PolarQuant est utilisé : un algorithme qui fait tourner aléatoirement les vecteurs, les traduit en une représentation plus pratique, puis quantifie les coordonnées individuellement. Cette approche préserve la structure de base des données originales sans ajustements complexes pour chaque bloc. Ensuite, la deuxième couche entre en jeu — Quantized Johnson-Lindenstrauss, ou QJL.
Elle prend l'erreur résiduelle après la première étape et l'encode avec un seul bit supplémentaire pour éliminer le biais systématique dans le calcul du produit interne et du score d'attention. Pratiquement, cela est important pour deux raisons. Premièrement, TurboQuant reste data-oblivious : il n'a besoin d'aucun dataset pour la calibration, d'entraînement supplémentaire ou de fine-tuning pour des modèles spécifiques.
Deuxièmement, la méthode fonctionne pour les scénarios en ligne, où le cache doit être comprimé directement pendant l'inference, plutôt que de préparer un pipeline offline séparé. Google souligne que cette approche est utile non seulement pour les LLMs, mais aussi pour la recherche vectorielle, où les grandes collections d'embeddings doivent également être stockées et comparées rapidement et à moindre coût. TurboQuant lui-même est préparé pour une présentation à l'ICLR 2026.
Quels résultats
Google a-t-elle obtenus Google a testé TurboQuant sur LongBench, Needle In A Haystack, ZeroSCROLLS, RULER et L-Eval, en utilisant les modèles ouverts Gemma et Mistral. Selon l'entreprise, TurboQuant maintient la qualité sur les tâches de contexte long tout en réduisant significativement le cache KV. Le blog de Google met l'accent sur la quantification 3-bit sans perte de qualité sur les benchmarks testés, et le résumé de l'article sur arXiv note séparément la préservation complète de la qualité à 3,5 bits par canal avec seulement une légère dégradation à 2,5 bits.
réduction minimale de 6x de la mémoire du cache KV accélération jusqu'à 8x du calcul des logits d'attention sur H100 en configuration 4-bit par rapport aux clés 32-bit non quantifiées pas besoin d'entraînement supplémentaire, fine-tuning ou datasets de calibration résultats solides aussi dans la recherche vectorielle : TurboQuant a surpassé les méthodes baseline PQ et RabbiQ en recall sur le dataset GloVe Séparément, Google mise sur l'application de la méthode à la recherche. TurboQuant, PolarQuant et QJL réduisent non seulement l'utilisation mémoire, mais aussi le temps de construction de l'index, tout en maintenant la précision de la recherche du plus proche voisin. Cela rend la technologie intéressante non seulement pour les modèles générateurs, mais pour toute infrastructure devant travailler avec d'énormes collections de vecteurs : de la recherche sémantique aux systèmes de recommandation et à la couche de retrieval des produits IA.
Qu'est-ce que cela signifie
TurboQuant montre que le prochain grand progrès pour les LLMs pourrait provenir non pas de nouveaux paramètres du modèle, mais d'une gestion plus intelligente de la mémoire. Si l'approche de Google est validée en production et apparaît dans les stacks d'inference populaires, le contexte long deviendra moins cher, plus rapide et plus accessible même sans mises à niveau du matériel. Pour les développeurs, c'est une occasion d'adapter des sessions plus longues et des scénarios RAG dans le même budget GPU, et pour les utilisateurs — d'obtenir des réponses plus stables sur de grands documents et de longues conversations.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.