AWS e vLLM integraram o P-EAGLE para acelerar a inferência de LLMs de grande porte em até 1,69x
AWS e vLLM adicionaram o P-EAGLE, uma variante paralela da decodificação especulativa para acelerar a inferência de LLMs. Em vez de gerar tokens preliminares…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
AWS e o time do vLLM demonstraram P-EAGLE — uma nova forma de acelerar a inferência de modelos de linguagem grandes sem mudar o modelo base. A abordagem já está integrada no vLLM, e em testes com GPT-OSS 20B alcançou até 1,69× mais throughput comparado com EAGLE-3 padrão.
Onde estava o gargalo
Decodificação especulativa há muito é considerada uma das formas mais práticas de acelerar LLMs durante inferência. A ideia é que um modelo auxiliar sugere vários próximos tokens antecipadamente, enquanto o modelo principal verifica rapidamente quais podem ser aceitos. O método EAGLE já fornecia uma melhoria notável e era usado em vLLM, SGLang e TensorRT-LLM.
Mas tinha um problema importante: para gerar K tokens de rascunho, os modelos drafter precisavam fazer K passes forward sequenciais. Quanto mais profunda a especulação, mais a latência do próprio drafter crescia. Por isso, EAGLE clássico atingiu um teto oculto.
No papel, o desejo era especular mais profundamente e aceitar mais tokens por rodada, mas na prática o trabalho adicional do modelo drafter começava a devorar o benefício. Os autores de P-EAGLE removem exatamente essa limitação: todos os K tokens de rascunho são gerados em um único pass. Isso muda o equilíbrio para especulação mais agressiva, especialmente em respostas longas e tarefas de código, onde toda operação sequencial extra é notável em latência e throughput.
Como funciona P-EAGLE
A arquitetura de P-EAGLE é em dois estágios. Primeiro, o modelo alvo processa o prompt e, como usual, prediz o próximo token. Ao mesmo tempo, o sistema salva estados ocultos internos para posições do prompt e para o novo token.
Então o drafter coleta entradas para todas as posições futuras em paralelo: para partes já conhecidas da sequência, usa embeddings reais e estados ocultos, enquanto para posições que ainda não existem substitui máscaras treináveis e um vetor oculto compartilhado. Depois disso, vários tokens futuros são preditos em um único pass forward, em vez de uma cadeia de vários passos. Uma complexidade separada é o treinamento em sequências longas.
AWS nota que para GPT-OSS 120B em UltraChat, o comprimento mediano da sequência junto com prompt e geração alcançou 3891 tokens, e o percentil 90 alcançou 10800 tokens. Com decodificação de rascunho paralela, a memória cresce muito rapidamente, porque o número de posições se torna N × K. Para isso, os autores adicionaram um algoritmo de partição de sequência: ele divide uma longa sequência em pedaços contínuos, preserva dependências corretas de atenção entre eles e permite acumular gradientes dentro de um único exemplo, não apenas entre batches diferentes.
Integração e números
A parte prática não se limitou ao artigo: P-EAGLE já foi adicionado ao vLLM a partir da versão 0.16.0. Para ativar, basta usar decodificação especulativa com o sinalizador parallel_drafting: true e conectar um drafter-head compatível.
AWS já lançou checkpoints prontos para GPT-OSS 120B, GPT-OSS 20B e Qwen3-Coder 30B, para que a tecnologia possa ser testada sem treinar do zero.
- A integração apareceu em vLLM a partir da versão 0.16.0
- O modo é ativado via sinalizador parallel_drafting: true
- Modelos P-EAGLE head prontos estão disponíveis para GPT-OSS 120B, GPT-OSS 20B e Qwen3-Coder 30B
- No NVIDIA B200, a melhoria em relação ao EAGLE-3 padrão variou de 1,05× a 1,69×
- O melhor throughput de P-EAGLE nos testes foi alcançado com profundidade de especulação K=7
O quadro de benchmark parece consistente. Em MT-Bench, HumanEval e SPEED-Bench, o novo método mostrou uma melhoria de 55–69% sob baixa contenção e manteve um ganho de 5–25% mesmo sob alta carga. Além de velocidade, o comprimento de aceitação também melhorou — o número médio de tokens de rascunho aceitos pelo verificador por rodada. Por exemplo, em K=7 em HumanEval, P-EAGLE obteve 3,94 versus 3,03 para EAGLE-3, e em SPEED-Bench — 3,38 versus 2,59. AWS especificamente observa que executar GPT-OSS 20B com EAGLE-drafter atualmente requer um patch de uma linha no vLLM, que deve ser incluído em uma das próximas versões.
O que isso significa
Para times que já usam vLLM em produção, P-EAGLE parece uma melhoria rara sem uma reestruturação completa de pilha: o novo esquema está integrado ao runtime familiar e é ativado por config mais um checkpoint compatível. Se o ecossistema rapidamente obter mais modelos drafter treinados em paralelo, então essa variante de decodificação especulativa pode se tornar o novo padrão para inferência rápida e barata de LLM.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.