AWS y vLLM integraron P-EAGLE para acelerar la inferencia de grandes LLM hasta 1,69 veces
AWS y vLLM añadieron P-EAGLE, una variante paralela de la decodificación especulativa para acelerar la inferencia de LLM. En lugar de generar tokens…
Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
AWS y el equipo de vLLM demostraron P-EAGLE — una nueva forma de acelerar la inferencia de grandes modelos de lenguaje sin cambiar el modelo base. El enfoque ya está integrado en vLLM, y en pruebas con GPT-OSS 20B logró hasta 1,69× más throughput comparado con EAGLE-3 estándar.
Dónde estaba el cuello de botella
La decodificación especulativa ha sido considerada durante mucho tiempo una de las formas más prácticas de acelerar LLMs durante la inferencia. La idea es que un modelo auxiliar sugiere varios tokens siguientes por adelantado, mientras que el modelo principal verifica rápidamente cuáles pueden aceptarse. El método EAGLE ya proporcionaba una mejora notable y se usaba en vLLM, SGLang y TensorRT-LLM.
Pero tenía un problema importante: para generar K tokens de borrador, los modelos drafter tenían que hacer K pasadas forward secuenciales. Cuanto más profunda la especulación, mayor crecía la latencia del propio drafter. Por esto, EAGLE clásico alcanzó un techo oculto.
En teoría, el deseo era especular más profundamente y aceptar más tokens por ronda, pero en la práctica el trabajo adicional del modelo drafter comenzaba a consumir el beneficio. Los autores de P-EAGLE eliminan exactamente esta limitación: todos los K tokens de borrador se generan en una única pasada. Esto cambia el equilibrio hacia una especulación más agresiva, especialmente en respuestas largas y tareas de código, donde cada operación secuencial adicional es notable en latencia y throughput.
Cómo funciona P-EAGLE
La arquitectura de P-EAGLE es de dos etapas. Primero, el modelo objetivo procesa el prompt y, como es habitual, predice el siguiente token. Al mismo tiempo, el sistema guarda estados ocultos internos para posiciones del prompt y para el nuevo token.
Entonces el drafter recopila entradas para todas las posiciones futuras en paralelo: para partes ya conocidas de la secuencia, utiliza incrustaciones reales y estados ocultos, mientras que para posiciones que aún no existen sustituye máscaras aprendibles y un vector oculto compartido. Después, varios tokens futuros se predicen en una única pasada forward, en lugar de una cadena de varios pasos. Una complejidad separada es el entrenamiento en secuencias largas.
AWS señala que para GPT-OSS 120B en UltraChat, la longitud mediana de la secuencia junto con prompt y generación alcanzó 3891 tokens, y el percentil 90 alcanzó 10800 tokens. Con decodificación de borrador paralela, la memoria crece muy rápidamente, porque el número de posiciones se convierte en N × K. Para esto, los autores añadieron un algoritmo de partición de secuencia: divide una secuencia larga en fragmentos continuos, preserva las dependencias de atención correctas entre ellos y permite acumular gradientes dentro de un único ejemplo, no solo entre lotes diferentes.
Integración y números
La parte práctica no se limitó al artículo: P-EAGLE ya se ha añadido a vLLM a partir de la versión 0.16.0. Para habilitarlo, simplemente use decodificación especulativa con la bandera parallel_drafting: true y conecte un drafter-head compatible.
AWS ya ha lanzado checkpoints listos para GPT-OSS 120B, GPT-OSS 20B y Qwen3-Coder 30B, por lo que la tecnología se puede probar sin entrenar desde cero.
- La integración apareció en vLLM a partir de la versión 0.16.0
- El modo se habilita mediante la bandera parallel_drafting: true
- Los modelos P-EAGLE head listos están disponibles para GPT-OSS 120B, GPT-OSS 20B y Qwen3-Coder 30B
- En NVIDIA B200, la mejora sobre EAGLE-3 estándar osciló entre 1,05× y 1,69×
- El mejor throughput de P-EAGLE en las pruebas se logró con profundidad de especulación K=7
El panorama de benchmarks se ve consistente. En MT-Bench, HumanEval y SPEED-Bench, el nuevo método mostró una mejora de 55–69% bajo baja contención y mantuvo una ganancia de 5–25% incluso bajo alta carga. Además de velocidad, la aceptación de longitud también mejoró — el número promedio de tokens de borrador aceptados por el verificador por ronda. Por ejemplo, en K=7 en HumanEval, P-EAGLE obtuvo 3,94 frente a 3,03 para EAGLE-3, y en SPEED-Bench — 3,38 frente a 2,59. AWS señala específicamente que ejecutar GPT-OSS 20B con EAGLE-drafter actualmente requiere un parche de una línea en vLLM, que debe incluirse en una de las próximas versiones.
Lo que esto significa
Para los equipos que ya usan vLLM en producción, P-EAGLE parece una mejora rara sin una reestructuración completa de la pila: el nuevo esquema está integrado en el runtime familiar y se activa mediante configuración más un checkpoint compatible. Si el ecosistema obtiene rápidamente más modelos drafter entrenados en paralelo, entonces esta variante de decodificación especulativa podría convertirse en el nuevo estándar para la inferencia rápida y económica de LLM.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.