DeepSeek, Google et Meta : 10 techniques de compression de KV-cache pour LLM afin de réduire la mémoire en inférence
KV-cache a longtemps été un goulot d'étranglement pour exécuter des LLM avec un long contexte, et les chercheurs proposent maintenant non seulement un, mais…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Le KV-cache a évolué d'un détail auxiliaire à l'un des principaux goulots d'étranglement de l'inférence LLM en production. Un nouvel examen a compilé 10 techniques qui aident à réduire la consommation de mémoire sans réentraînement complet du modèle et dans de nombreux cas accélèrent significativement la génération.
Où les LLM S'enlisent
Plus le contexte est long et plus un modèle traite de requêtes simultanées, plus rapidement le KV-cache se gonfle—un stockage intermédiaire de clés et de valeurs du mécanisme d'attention. L'examen fournit un exemple révélateur : un modèle avec 30 milliards de paramètres avec taille de lot 128 et entrée de 1024 tokens peut occuper jusqu'à 180 Go de mémoire dans son KV-cache. Même pour un modèle 7B, les poids occupent environ 14 Go de mémoire GPU, tandis que le cache occupe environ 72 Go—signifiant que le mécanisme de génération lui-même commence à coûter plus cher que de stocker les paramètres.
De ce fait, l'optimisation du KV-cache est devenue une direction de recherche distincte, non une tâche mineure d'ajustement. La compression du cache permet d'augmenter la taille du lot, de servir plus d'utilisateurs sur le même GPU et d'éviter de atteindre les limites de mémoire avec de longs prompts. Un avantage important est que bon nombre de ces méthodes fonctionnent directement lors de l'inférence : le modèle de base n'a pas besoin d'être réentraîné et l'effet est immédiatement visible en débit et coût de service.
Comment Il Est Comprimé
Les chercheurs utilisent maintenant plusieurs stratégies qui diffèrent non seulement en qualité mais aussi en placement dans le pipeline. Certaines méthodes jettent les tokens les moins utiles, d'autres réduisent la précision de la représentation du cache et d'autres encore modifient l'architecture d'attention elle-même. Une classe distincte redistribue la mémoire entre les couches car les couches précoces ont besoin d'un contexte plus riche, tandis que les couches plus profondes peuvent fonctionner avec moins de clés et de valeurs. Essentiellement, il ne s'agit plus de pourcentages d'économies mais de la capacité à exécuter un long contexte sur le même matériel.
- Élagage de tokens : H2O, StreamingLLM et SnapKV conservent uniquement une portion des états. H2O conserve les tokens « lourds » ayant une contribution d'attention élevée, StreamingLLM garde les premiers tokens et une fenêtre récente, tandis que SnapKV sélectionne les positions importantes par attention à la fin du prompt.
- Allocation de budget par couche : PyramidKV et PyramidInfer opèrent sur l'hypothèse que les couches profondes ont besoin d'un contexte moins riche que les couches précoces, donc la mémoire est allouée de manière inégale.
- Quantification : KIVI, KVQuant et TurboQuant réduisent la précision de la représentation du KV-cache tout en essayant de préserver la qualité de la génération.
- Changements architecturaux : MQA, GQA et MLA réduisent la taille du cache au niveau du schéma d'attention lui-même, plutôt que sur un modèle existant.
- Compression de faible rang : Palu, LoRC et méthodes similaires réduisent la dimension cachée des tenseurs KV plutôt que la longueur de la séquence.
Les plus simples à déployer sont les méthodes sans entraînement supplémentaire. H2O trouve les tokens qui collectent l'essentiel de l'attention et élimine les positions faibles. StreamingLLM conserve les premiers tokens comme « ancres d'attention » plus une fenêtre récente, le rendant adapté aux conversations infinies mais risquant la perte d'informations importantes du contexte intermédiaire. SnapKV opère lors de l'étape de pré-remplissage et sélectionne les positions importantes séparément par tête d'attention, donc surpasse généralement les schémas plus grossiers au même budget de cache.
Les distributions de poids d'attention suivent souvent une loi de
puissance, donc la suppression de tokens à faible contribution n'impact pas toujours gravement la qualité.
Qui Offre les Meilleurs Gains
En quantification, KIVI, KVQuant et TurboQuant se distinguent notablement. KIVI convertit le KV-cache en représentation 2 bits sans fine-tuning et, selon l'examen, offre jusqu'à 2,6x moins d'utilisation de mémoire crête dans la combinaison « poids plus cache » et permet d'exécuter des lots jusqu'à quatre fois plus grands. KVQuant va plus loin : il utilise l'étalonnage, la précision mixte et la gestion séparée des valeurs aberrantes pour maintenir la qualité même sur des contextes extrêmement longs.
Le résultat le plus agressif du matériel est attribué à TurboQuant de Google Research. Cette méthode aligne d'abord les distributions de valeurs par rotation orthogonale aléatoire, puis corrige l'erreur de quantification de sorte que l'estimation du produit scalaire reste sans biais. Sur H100, elle montre au minimum une réduction mémoire de 6x et jusqu'à 8x attention plus rapide avec précision 3 bits.
Pour les équipes d'infrastructure, ce n'est plus une optimisation locale mais une revendication d'un nouveau standard de service.
Une piste distincte est de modifier l'architecture du modèle elle-même. GQA est déjà devenu la norme de facto pour les LLM modernes à poids ouvert : alors qu'il n'était utilisé que dans la version 70B de Llama 2, dans Llama 3 il s'est étendu à 8B et 70B. Allant plus loin, il y a MLA de DeepSeek, où au lieu de clés et valeurs de taille complète, une représentation latente comprimée est stockée par token. L'examen note que DeepSeek-V2 a réduit le KV-cache de 93,3% par rapport à son précédent modèle dense 67B grâce à MLA.
Ce Que Cela Signifie
Le marché LLM est de moins en moins contraint par la taille des poids et de plus en plus par le coût de la mémoire en contexte long. Pour les équipes construisant des services d'inférence, la conclusion est directe : les gains proviennent désormais non pas d'une technique magique mais d'une sélection réfléchie entre eviction, quantification et architecture adaptées à des charges de travail spécifiques, des SLA et des budgets GPU.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.