AWS Machine Learning Blog→ original

AWS e vLLM integraram o P-EAGLE para acelerar a inferência de LLMs de grande porte em até 1,69x

AWS e vLLM adicionaram o P-EAGLE, uma variante paralela da decodificação especulativa para acelerar a inferência de LLMs. Em vez de gerar tokens preliminares…

Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
AWS e vLLM integraram o P-EAGLE para acelerar a inferência de LLMs de grande porte em até 1,69x
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

AWS e o time do vLLM demonstraram P-EAGLE — uma nova forma de acelerar a inferência de modelos de linguagem grandes sem mudar o modelo base. A abordagem já está integrada no vLLM, e em testes com GPT-OSS 20B alcançou até 1,69× mais throughput comparado com EAGLE-3 padrão.

Onde estava o gargalo

Decodificação especulativa há muito é considerada uma das formas mais práticas de acelerar LLMs durante inferência. A ideia é que um modelo auxiliar sugere vários próximos tokens antecipadamente, enquanto o modelo principal verifica rapidamente quais podem ser aceitos. O método EAGLE já fornecia uma melhoria notável e era usado em vLLM, SGLang e TensorRT-LLM.

Mas tinha um problema importante: para gerar K tokens de rascunho, os modelos drafter precisavam fazer K passes forward sequenciais. Quanto mais profunda a especulação, mais a latência do próprio drafter crescia. Por isso, EAGLE clássico atingiu um teto oculto.

No papel, o desejo era especular mais profundamente e aceitar mais tokens por rodada, mas na prática o trabalho adicional do modelo drafter começava a devorar o benefício. Os autores de P-EAGLE removem exatamente essa limitação: todos os K tokens de rascunho são gerados em um único pass. Isso muda o equilíbrio para especulação mais agressiva, especialmente em respostas longas e tarefas de código, onde toda operação sequencial extra é notável em latência e throughput.

Como funciona P-EAGLE

A arquitetura de P-EAGLE é em dois estágios. Primeiro, o modelo alvo processa o prompt e, como usual, prediz o próximo token. Ao mesmo tempo, o sistema salva estados ocultos internos para posições do prompt e para o novo token.

Então o drafter coleta entradas para todas as posições futuras em paralelo: para partes já conhecidas da sequência, usa embeddings reais e estados ocultos, enquanto para posições que ainda não existem substitui máscaras treináveis e um vetor oculto compartilhado. Depois disso, vários tokens futuros são preditos em um único pass forward, em vez de uma cadeia de vários passos. Uma complexidade separada é o treinamento em sequências longas.

AWS nota que para GPT-OSS 120B em UltraChat, o comprimento mediano da sequência junto com prompt e geração alcançou 3891 tokens, e o percentil 90 alcançou 10800 tokens. Com decodificação de rascunho paralela, a memória cresce muito rapidamente, porque o número de posições se torna N × K. Para isso, os autores adicionaram um algoritmo de partição de sequência: ele divide uma longa sequência em pedaços contínuos, preserva dependências corretas de atenção entre eles e permite acumular gradientes dentro de um único exemplo, não apenas entre batches diferentes.

Integração e números

A parte prática não se limitou ao artigo: P-EAGLE já foi adicionado ao vLLM a partir da versão 0.16.0. Para ativar, basta usar decodificação especulativa com o sinalizador parallel_drafting: true e conectar um drafter-head compatível.

AWS já lançou checkpoints prontos para GPT-OSS 120B, GPT-OSS 20B e Qwen3-Coder 30B, para que a tecnologia possa ser testada sem treinar do zero.

  • A integração apareceu em vLLM a partir da versão 0.16.0
  • O modo é ativado via sinalizador parallel_drafting: true
  • Modelos P-EAGLE head prontos estão disponíveis para GPT-OSS 120B, GPT-OSS 20B e Qwen3-Coder 30B
  • No NVIDIA B200, a melhoria em relação ao EAGLE-3 padrão variou de 1,05× a 1,69×
  • O melhor throughput de P-EAGLE nos testes foi alcançado com profundidade de especulação K=7

O quadro de benchmark parece consistente. Em MT-Bench, HumanEval e SPEED-Bench, o novo método mostrou uma melhoria de 55–69% sob baixa contenção e manteve um ganho de 5–25% mesmo sob alta carga. Além de velocidade, o comprimento de aceitação também melhorou — o número médio de tokens de rascunho aceitos pelo verificador por rodada. Por exemplo, em K=7 em HumanEval, P-EAGLE obteve 3,94 versus 3,03 para EAGLE-3, e em SPEED-Bench — 3,38 versus 2,59. AWS especificamente observa que executar GPT-OSS 20B com EAGLE-drafter atualmente requer um patch de uma linha no vLLM, que deve ser incluído em uma das próximas versões.

O que isso significa

Para times que já usam vLLM em produção, P-EAGLE parece uma melhoria rara sem uma reestruturação completa de pilha: o novo esquema está integrado ao runtime familiar e é ativado por config mais um checkpoint compatível. Se o ecossistema rapidamente obter mais modelos drafter treinados em paralelo, então essa variante de decodificação especulativa pode se tornar o novo padrão para inferência rápida e barata de LLM.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…