MarkTechPost→ original

EAGLE 3.1: comment corriger l'instabilité du décodage spéculatif dans les LLM

EAGLE 3.1 a été lancée conjointement par EAGLE team, vLLM et TorchSpec. Le nouvel algorithme de décodage spéculatif résout le problème d'instabilité dans…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
EAGLE 3.1: comment corriger l'instabilité du décodage spéculatif dans les LLM
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

EAGLE 3.1 a été lancée conjointement par les équipes EAGLE, vLLM et TorchSpec. La nouvelle version de l'algorithme de décodage spéculatif résout le problème d'instabilité critique qui se produisait lors de l'inférence des grands modèles de langage dans les environnements de production.

Comment fonctionne le décodage spéculatif

Le décodage spéculatif est une technique d'accélération de l'inférence LLM. Au lieu de générer les jetons un par un (de manière autorégressive), l'algorithme prédit plusieurs jetons suivants simultanément, et le modèle principal les vérifie en parallèle via un forward pass. Cela évite les appels GPU inutiles et accélère considérablement la génération des réponses. EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) se spécialise dans la prédiction de plusieurs jetons en parallèle à l'aide d'un petit modèle auxiliaire. L'approche est connue depuis longtemps, mais dans les véritables systèmes de production avec de grands batches et des contextes longs, des problèmes de fiabilité sont apparus.

Le problème de la dérive d'attention

Le principal problème avec EAGLE 3.0 et les versions antérieures est la dérive d'attention. Lorsque le modèle auxiliaire prédit plusieurs jetons consécutifs, les calculs internes du mécanisme d'attention (la partie la plus critique du transformer) commencent à diverger du comportement réel du modèle principal. Cela s'accumule, et finalement la qualité des prédictions diminue. En pratique, cela se manifeste comme suit:

  • Baisse soudaine de la qualité des jetons générés dans les longues séquences
  • Instabilité avec les grandes tailles de batch (>32)
  • Défaillances périodiques en production, nécessitant des retours en arrière vers des méthodes lentes mais fiables
  • Augmentation de la latence en raison des mesures compensatoires et de la logique de secours

Comment EAGLE 3.1 corrige ce problème

EAGLE 3.1 contient un mécanisme d'étalonnage des poids d'attention repensé. L'algorithme synchronise maintenant périodiquement ses états internes avec le modèle principal, prévenant l'accumulation d'erreurs. Au lieu de simplement prédire les jetons, EAGLE 3.1 suit activement la divergence dans le mécanisme d'attention et la corrige à la volée. Les améliorations clés incluent:

  • Stabilisation des poids d'attention via une vérification périodique avec le modèle principal
  • Correction adaptative des jetons prédits en fonction de leur confiance
  • Traitement optimisé des jetons rares et des cas limites
  • Meilleure scalabilité pour les tailles de batch de 1 à 512

La version est accompagnée de patches pour vLLM (un framework d'inférence populaire) et TorchSpec (une norme pour le décodage spéculatif). Les équipes ont également ajouté un mode de compatibilité rétroactive pour que les systèmes de production existants puissent se mettre à jour progressivement.

Résultats en production

Les résultats des tests montrent:

  • Accélération de l'inférence de 20-30% dans les scénarios standard
  • Stabilité sur toutes les tailles de contexte (jusqu'à 128K jetons)
  • Compatibilité avec la quantification (4-bit, 8-bit)
  • Support de l'inférence multi-utilisateur sur un seul GPU

Ce que cela signifie

EAGLE 3.1 est une étape pratique vers la transformation du décodage spéculatif en un outil fiable pour les LLM de production. Auparavant, c'était plutôt une accélération expérimentale utilisée dans des conditions contrôlées.

Maintenant, les ingénieurs ML peuvent le déployer dans les systèmes en direct sans craintes. Pour les entreprises exploitant de grands clusters d'inférence LLM (OpenAI, Anthropic, AWS, Google), cela signifie soit des réponses plus rapides aux utilisateurs (réduction de latence de 20-30%), soit une réduction des coûts GPU (moins de puissance nécessaire pour le même débit). Les deux options constituent un avantage concurrentiel.

Pour les modèles ouverts (Llama, Mistral), cela signifie que leur inférence peut devenir plus compétitive avec les services propriétaires simplement grâce à un meilleur algorithme de décodage spéculatif.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…