AWS et vLLM ont intégré P-EAGLE pour accélérer l’inférence des LLM de grande taille jusqu’à 1,69×
AWS et vLLM ont ajouté P-EAGLE, une variante parallèle du décodage spéculatif pour accélérer l’inférence des LLM. Au lieu de générer les tokens brouillons de…
Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS et l'équipe de vLLM ont démontré P-EAGLE — une nouvelle façon d'accélérer l'inférence de grands modèles de langage sans changer le modèle de base. L'approche est déjà intégrée dans vLLM, et dans les tests avec GPT-OSS 20B, elle a atteint jusqu'à 1,69× plus de débit par rapport à EAGLE-3 standard.
Où était le goulot d'étranglement
Le décodage spéculatif a longtemps été considéré comme l'un des moyens les plus pratiques d'accélérer les LLM pendant l'inférence. L'idée est qu'un modèle auxiliaire suggère plusieurs tokens suivants à l'avance, tandis que le modèle principal vérifie rapidement lesquels peuvent être acceptés. La méthode EAGLE fournissait déjà une amélioration notable et était utilisée dans vLLM, SGLang et TensorRT-LLM.
Mais elle avait un problème important : pour générer K tokens de brouillon, les modèles drafter devaient effectuer K passages forward séquentiels. Plus la spéculation était profonde, plus la latence du drafter lui-même augmentait. Pour cette raison, EAGLE classique a atteint un plafond caché.
Sur le papier, on souhaitait spéculer plus profondément et accepter plus de tokens par tour, mais en pratique le travail supplémentaire du modèle drafter commençait à ronger le bénéfice. Les auteurs de P-EAGLE éliminent exactement cette limitation : tous les K tokens de brouillon sont générés en une seule passe. Cela change l'équilibre vers une spéculation plus agressive, en particulier sur les réponses longues et les tâches de code, où chaque opération séquentielle supplémentaire est notable en latence et débit.
Comment fonctionne P-EAGLE
L'architecture de P-EAGLE est en deux étapes. Premièrement, le modèle cible traite l'invite et, comme d'habitude, prédit le token suivant. En même temps, le système sauvegarde les états cachés internes pour les positions d'invite et pour le nouveau token.
Ensuite, le drafter collecte les entrées pour toutes les positions futures en parallèle : pour les parties déjà connues de la séquence, il utilise les embeddings réels et les états cachés, tandis que pour les positions qui n'existent pas encore, il substitue des masques apprenables et un vecteur caché partagé. Après cela, plusieurs tokens futurs sont prédits en une seule passe forward, plutôt qu'une chaîne de plusieurs étapes. Une complexité distincte est l'entraînement sur de longues séquences.
AWS note que pour GPT-OSS 120B sur UltraChat, la longueur médiane de la séquence avec l'invite et la génération a atteint 3891 tokens, et le 90e percentile a atteint 10800 tokens. Avec décodage de brouillon parallèle, la mémoire croît très rapidement, car le nombre de positions devient N × K. Pour cela, les auteurs ont ajouté un algorithme de partitionnement de séquence : il divise une longue séquence en fragments continus, préserve les dépendances d'attention correctes entre eux et permet d'accumuler des gradients au sein d'un seul exemple, et non seulement entre différents lots.
Intégration et chiffres
La partie pratique ne s'est pas limitée à l'article : P-EAGLE a déjà été ajouté à vLLM à partir de la version 0.16.0. Pour l'activer, utilisez simplement le décodage spéculatif avec le drapeau parallel_drafting: true et connectez un drafter-head compatible.
AWS a déjà publié des points de contrôle prêts pour GPT-OSS 120B, GPT-OSS 20B et Qwen3-Coder 30B, de sorte que la technologie peut être essayée sans entraîner à partir de zéro.
- L'intégration est apparue dans vLLM à partir de la version 0.16.0
- Le mode est activé via le drapeau parallel_drafting: true
- Les modèles P-EAGLE head prêts sont disponibles pour GPT-OSS 120B, GPT-OSS 20B et Qwen3-Coder 30B
- Sur NVIDIA B200, l'amélioration par rapport à EAGLE-3 standard a varié de 1,05× à 1,69×
- Le meilleur débit P-EAGLE dans les tests a été atteint avec profondeur de spéculation K=7
Le paysage des benchmarks semble cohérent. Sur MT-Bench, HumanEval et SPEED-Bench, la nouvelle méthode a montré une amélioration de 55–69% sous faible contention et a maintenu un gain de 5–25% même sous charge élevée. En plus de la vitesse, la longueur d'acceptation s'est également améliorée — le nombre moyen de tokens de brouillon acceptés par le vérificateur par tour. Par exemple, à K=7 sur HumanEval, P-EAGLE a obtenu 3,94 contre 3,03 pour EAGLE-3, et sur SPEED-Bench — 3,38 contre 2,59. AWS note spécifiquement que l'exécution de GPT-OSS 20B avec EAGLE-drafter nécessite actuellement un correctif d'une ligne dans vLLM, qui doit être inclus dans l'une des prochaines versions.
Ce que cela signifie
Pour les équipes utilisant déjà vLLM en production, P-EAGLE semble être une amélioration rare sans reconstruction complète de la pile : le nouveau schéma est intégré au runtime familier et s'active par configuration plus un point de contrôle compatible. Si l'écosystème obtient rapidement plus de modèles drafter entraînés en parallèle, alors cette variante du décodage spéculatif pourrait devenir la nouvelle norme pour l'inférence rapide et économique des LLM.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.