EAGLE 3.1: Comment corriger l'instabilité du décodage spéculatif dans les LLMs
EAGLE 3.1 lancée conjointement par EAGLE team, vLLM et TorchSpec. Le nouvel algorithme de décodage spéculatif résout les problèmes d'instabilité dans l'inférenc

◐ Écouter l'article
EAGLE 3.1 lancée conjointement par EAGLE team, vLLM et TorchSpec. Le nouvel algorithme de décodage spéculatif résout les problèmes d'instabilité dans l'inférence de production des LLMs. Un bug critique de dérive d'attention qui réduisait la vitesse de génération de tokens a été corrigé.