AWS Machine Learning Blog→ оригинал

AWS e vLLM integraram o P-EAGLE para acelerar a inferência de LLMs de grande porte em até 1,69x

AWS e vLLM adicionaram o P-EAGLE, uma variante paralela da decodificação especulativa para acelerar a inferência de LLMs. Em vez de gerar tokens preliminares em

AWS e vLLM integraram o P-EAGLE para acelerar a inferência de LLMs de grande porte em até 1,69x
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

AWS и команда vLLM показали P-EAGLE — новый способ ускорить вывод больших языковых моделей без смены основной модели. Подход уже интегрирован в vLLM, а на тестах с GPT-OSS 20B он дал до 1,69 раза больше пропускной способности по сравнению с обычным EAGLE-3.

Где было узкое место

Спекулятивное декодирование давно считается одним из самых практичных способов разогнать LLM на инференсе. Идея в том, что вспомогательная модель заранее предлагает несколько следующих токенов, а основная быстро проверяет, какие из них можно принять. Метод EAGLE уже давал заметный выигрыш и применялся в vLLM, SGLang и TensorRT-LLM.

Но у него оставалась важная проблема: чтобы сгенерировать K черновых токенов, drafter-модели приходилось делать K последовательных forward pass. Чем глубже спекуляция, тем сильнее росла задержка самого черновика. Из-за этого классический EAGLE упирался в скрытый потолок.

На бумаге хотелось спекулировать глубже и принимать больше токенов за раунд, но на практике дополнительная работа drafter-модели начинала съедать выгоду. Авторы P-EAGLE убирают именно это ограничение: все K черновых токенов генерируются за один проход. Это меняет баланс в пользу более агрессивной спекуляции, особенно на длинных ответах и кодовых задачах, где каждая лишняя последовательная операция заметна в latency и throughput.

Как работает P-EAGLE Архитектура у P-EAGLE двухшаговая.

Сначала целевая модель обрабатывает промпт и, как обычно, предсказывает следующий токен. Заодно система сохраняет внутренние hidden states для позиций промпта и для нового токена. Затем drafter собирает входы для всех будущих позиций параллельно: для уже известных частей последовательности он использует реальные эмбеддинги и hidden states, а для ещё не существующих позиций подставляет обучаемые маски и общий скрытый вектор.

После этого несколько будущих токенов предсказываются одним forward pass, а не цепочкой из нескольких шагов. Отдельная сложность — обучение на длинных последовательностях. AWS пишет, что у GPT-OSS 120B на UltraChat медианная длина последовательности вместе с промптом и генерацией достигала 3891 токена, а 90-й перцентиль — 10800 токенов.

При параллельном черновом декодировании память растёт очень быстро, потому что число позиций становится N × K. Для этого авторы добавили алгоритм sequence partition: он делит одну длинную последовательность на непрерывные куски, сохраняет корректные attention-зависимости между ними и позволяет накапливать градиенты внутри одного примера, а не только между разными батчами.

Интеграция и цифры

Практическая часть не ограничилась статьёй: P-EAGLE уже добавлен в vLLM, начиная с версии 0.16.0. Для включения достаточно использовать speculative decoding с флагом parallel_drafting: true и подключить совместимый drafter-head. AWS уже выложила готовые чекпойнты для GPT-OSS 120B, GPT-OSS 20B и Qwen3-Coder 30B, так что технологию можно попробовать без собственного обучения с нуля.

  • Интеграция появилась в vLLM с версии 0.16.0 Режим включается через флаг parallel_drafting: true Готовые P-EAGLE head-модели доступны для GPT-OSS 120B, GPT-OSS 20B и Qwen3-Coder 30B На NVIDIA B200 прирост к обычному EAGLE-3 составил от 1,05× до 1,69× Наилучшая пропускная способность у P-EAGLE в тестах достигалась при глубине спекуляции K=7 По бенчмаркам картина выглядит устойчиво. На MT-Bench, HumanEval и SPEED-Bench новый метод показал прибавку 55–69% при низкой конкуренции и сохранял выигрыш 5–25% даже при высокой нагрузке. Кроме скорости, выросла и acceptance length — среднее число черновых токенов, которые верификатор принимает за один раунд. Например, при K=7 на HumanEval P-EAGLE получил 3,94 против 3,03 у EAGLE-3, а на SPEED-Bench — 3,38 против 2,59. AWS отдельно отмечает, что запуск GPT-OSS 20B с EAGLE-drafter пока требует однострочного патча в vLLM, который должны включить в один из следующих релизов.

Что это значит

Для команд, которые уже используют vLLM в проде, P-EAGLE выглядит как редкое улучшение без полной перестройки стека: новая схема встроена в знакомый рантайм и активируется конфигом плюс совместимым чекпойнтом. Если экосистема быстро получит больше параллельно обученных drafter-моделей, то именно такой вариант speculative decoding может стать новым стандартом для быстрого и дешёвого инференса LLM.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…