MarkTechPost→ original

NVIDIA a présenté KVTC : une technologie de compression du cache des LLM qui accélérera de 20 fois le fonctionnement des réseaux neuronaux

La mise à l'échelle des modèles de langage modernes (LLM) se heurte à une forte contrainte mémoire : le KV-cache, nécessaire au fonctionnement des…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
NVIDIA a présenté KVTC : une technologie de compression du cache des LLM qui accélérera de 20 fois le fonctionnement des réseaux neuronaux
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

# NVIDIA a Présenté KVTC: la Technologie de Compression du Cache LLM Accélérera les Réseaux de Neurones 20 Fois

L'industrie de l'intelligence artificielle fait face à un paradoxe : plus les modèles de langage deviennent puissants, plus lentement ils fonctionnent. Les chercheurs de NVIDIA ont découvert la source de ce ralentissement et ont proposé une solution radicale. La nouvelle architecture KVTC permet de compresser le cache de données auxiliaires vingt fois, éliminant le principal goulot d'étranglement qui ralentit le traitement des requêtes pour les réseaux de neurones modernes. Ce développement pourrait transformer l'économie de l'IA dans le cloud, permettant aux entreprises de servir plusieurs fois plus d'utilisateurs sur un seul serveur.

Le problème se cachait dans l'architecture des transformers eux-mêmes — sur lesquels ChatGPT, Claude, Gemini et autres LLMs sont construits. Lorsqu'un modèle traite du texte, il crée un cache spécial appelé KV-cache : il y stocke les clés et les valeurs pour chaque token nécessaires au calcul de l'attention aux étapes suivantes de la génération. Cela semble technique, mais l'essence est simple — ce sont des données intermédiaires sans lesquelles le modèle ne peut pas continuer la conversation.

Au fur et à mesure que le modèle s'agrandit et que le contexte s'étend (le nombre de mots dont il se souvient), ce cache croît exponentiellement. Pour les LLMs avancés avec des dizaines de milliards de paramètres, le KV-cache peut occuper des dizaines de gigaoctets de mémoire vidéo GPU. Lorsque vous travaillez avec des documents longs ou dans des scénarios où un serveur doit servir simultanément des centaines d'utilisateurs, la mémoire se remplit complètement et le système commence à geler.

L'équipe de NVIDIA a proposé d'utiliser le codage transformationnel pour compresser ce cache sans perdre la qualité des réponses. KVTC fonctionne comme un compresseur intelligent : le système analyse quelles parties du KV-cache sont véritablement critiques pour la précision et lesquelles peuvent être supprimées ou quantifiées en toute sécurité. Dans les tests pratiques, la méthode atteint une compression 20 fois avec une dégradation minimale des performances du modèle. Ce n'est pas simplement une réduction de mémoire — c'est une refonte fondamentale de la façon dont les données auxiliaires des transformers sont stockées.

L'importance de cette réussite est difficile à exagérer. Selon les recherches, la fourniture des LLMs dans le cloud représente jusqu'à 60% des coûts des centres de données en mémoire et en calcul. Si KVTC permet à une entreprise d'adapter quatre fois plus de requêtes simultanées sur le même matériel, cela signifie une réduction de quatre fois du coût par token. Pour un service comme ChatGPT ou Claude qui traite des millions de requêtes quotidiennement, cela signifie des centaines de millions de dollars en dépenses économisées. En même temps, les utilisateurs bénéficieront d'une génération de texte plus rapide — un cache placé dans une mémoire plus rapide est traité notablement plus rapidement.

La mise en œuvre de KVTC élargira également l'accessibilité de l'IA. Les entreprises qui ne peuvent pas se permettre des clusters énormes avec des GPU coûteux pourront exécuter des modèles puissants sur du matériel plus modeste. C'est particulièrement important pour les startups et les entreprises en dehors des hubs technologiques. Les chercheurs de NVIDIA ont déjà partagé une documentation détaillée sur la méthode, permettant à la communauté d'intégrer rapidement KVTC dans des frameworks populaires comme vLLM et TensorRT-LLM.

Bien que KVTC résout un problème technique spécifique, elle indique une tendance plus large dans l'industrie de l'IA : l'avenir appartient aux ingénieurs qui savent rendre les modèles non pas plus grands et plus complexes, mais plus efficaces. Lorsque la taille des modèles atteint déjà des limites physiques et économiques, l'optimisation devient un avantage concurrentiel. NVIDIA démontre qu'à la frontière de l'IA, il reste des innovations véritablement précieuses — non pas dans l'architecture du modèle, mais dans la façon de les exécuter pratiquement dans le monde réel.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…