AWS y vLLM integraron P-EAGLE para acelerar la inferencia de grandes LLM hasta 1,69 veces

Q: ¿Cuál es la fuente?

Publicado originalmente en AWS Machine Learning Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

30 abr 2026. Tiempo de lectura: 3 min.

AWS y vLLM añadieron P-EAGLE, una variante paralela de la decodificación especulativa para acelerar la inferencia de LLM. En lugar de generar tokens…

Redacción de Hamidun News

Monitoreo de AI · AWS Machine Learning Blog

30 abr 2026· 3 min

Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News

AWS y vLLM integraron P-EAGLE para acelerar la inferencia de grandes LLM hasta 1,69 veces — Fuente: AWS Machine Learning Blog. Collage: Hamidun News.

◐ Escuchar artículo

AWS y el equipo de vLLM demostraron P-EAGLE — una nueva forma de acelerar la inferencia de grandes modelos de lenguaje sin cambiar el modelo base. El enfoque ya está integrado en vLLM, y en pruebas con GPT-OSS 20B logró hasta 1,69× más throughput comparado con EAGLE-3 estándar.

Dónde estaba el cuello de botella

La decodificación especulativa ha sido considerada durante mucho tiempo una de las formas más prácticas de acelerar LLMs durante la inferencia. La idea es que un modelo auxiliar sugiere varios tokens siguientes por adelantado, mientras que el modelo principal verifica rápidamente cuáles pueden aceptarse. El método EAGLE ya proporcionaba una mejora notable y se usaba en vLLM, SGLang y TensorRT-LLM.

Pero tenía un problema importante: para generar K tokens de borrador, los modelos drafter tenían que hacer K pasadas forward secuenciales. Cuanto más profunda la especulación, mayor crecía la latencia del propio drafter. Por esto, EAGLE clásico alcanzó un techo oculto.

En teoría, el deseo era especular más profundamente y aceptar más tokens por ronda, pero en la práctica el trabajo adicional del modelo drafter comenzaba a consumir el beneficio. Los autores de P-EAGLE eliminan exactamente esta limitación: todos los K tokens de borrador se generan en una única pasada. Esto cambia el equilibrio hacia una especulación más agresiva, especialmente en respuestas largas y tareas de código, donde cada operación secuencial adicional es notable en latencia y throughput.

Cómo funciona P-EAGLE

La arquitectura de P-EAGLE es de dos etapas. Primero, el modelo objetivo procesa el prompt y, como es habitual, predice el siguiente token. Al mismo tiempo, el sistema guarda estados ocultos internos para posiciones del prompt y para el nuevo token.

Entonces el drafter recopila entradas para todas las posiciones futuras en paralelo: para partes ya conocidas de la secuencia, utiliza incrustaciones reales y estados ocultos, mientras que para posiciones que aún no existen sustituye máscaras aprendibles y un vector oculto compartido. Después, varios tokens futuros se predicen en una única pasada forward, en lugar de una cadena de varios pasos. Una complejidad separada es el entrenamiento en secuencias largas.

AWS señala que para GPT-OSS 120B en UltraChat, la longitud mediana de la secuencia junto con prompt y generación alcanzó 3891 tokens, y el percentil 90 alcanzó 10800 tokens. Con decodificación de borrador paralela, la memoria crece muy rápidamente, porque el número de posiciones se convierte en N × K. Para esto, los autores añadieron un algoritmo de partición de secuencia: divide una secuencia larga en fragmentos continuos, preserva las dependencias de atención correctas entre ellos y permite acumular gradientes dentro de un único ejemplo, no solo entre lotes diferentes.

Integración y números

La parte práctica no se limitó al artículo: P-EAGLE ya se ha añadido a vLLM a partir de la versión 0.16.0. Para habilitarlo, simplemente use decodificación especulativa con la bandera parallel_drafting: true y conecte un drafter-head compatible.

AWS ya ha lanzado checkpoints listos para GPT-OSS 120B, GPT-OSS 20B y Qwen3-Coder 30B, por lo que la tecnología se puede probar sin entrenar desde cero.

La integración apareció en vLLM a partir de la versión 0.16.0
El modo se habilita mediante la bandera parallel_drafting: true
Los modelos P-EAGLE head listos están disponibles para GPT-OSS 120B, GPT-OSS 20B y Qwen3-Coder 30B
En NVIDIA B200, la mejora sobre EAGLE-3 estándar osciló entre 1,05× y 1,69×
El mejor throughput de P-EAGLE en las pruebas se logró con profundidad de especulación K=7

El panorama de benchmarks se ve consistente. En MT-Bench, HumanEval y SPEED-Bench, el nuevo método mostró una mejora de 55–69% bajo baja contención y mantuvo una ganancia de 5–25% incluso bajo alta carga. Además de velocidad, la aceptación de longitud también mejoró — el número promedio de tokens de borrador aceptados por el verificador por ronda. Por ejemplo, en K=7 en HumanEval, P-EAGLE obtuvo 3,94 frente a 3,03 para EAGLE-3, y en SPEED-Bench — 3,38 frente a 2,59. AWS señala específicamente que ejecutar GPT-OSS 20B con EAGLE-drafter actualmente requiere un parche de una línea en vLLM, que debe incluirse en una de las próximas versiones.

Lo que esto significa

Para los equipos que ya usan vLLM en producción, P-EAGLE parece una mejora rara sin una reestructuración completa de la pila: el nuevo esquema está integrado en el runtime familiar y se activa mediante configuración más un checkpoint compatible. Si el ecosistema obtiene rápidamente más modelos drafter entrenados en paralelo, entonces esta variante de decodificación especulativa podría convertirse en el nuevo estándar para la inferencia rápida y económica de LLM.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita