Together AI представила ATLAS: спекулятор, который ускоряет LLM в 4 раза
Together AI представила ATLAS — адаптивный спекулятор на основе machine learning, который ускоряет LLM inference в 4 раза без ручной настройки. Система автомати

Together AI представила ATLAS (AdapTive-LeArning Speculator System) — революционную технологию ускорения LLM inference, которая автоматически улучшается по мере использования. Система достигает 500 токенов в секунду на DeepSeek-V3.1 и 460 на Kimi-K2 — это почти 4x ускорение без ручной настройки. Результаты получены на NVIDIA HGX B200 с использованием реального трафика от Arena Hard бенчмарка.
Что такое спекулятивный декодинг
Спекулятивный декодинг — один из самых мощных способов ускорить генерацию текста на LLM. Вместо стандартного способа, когда модель генерирует по одному токену за раз в последовательных проходах, система использует более быстрый спекулятор (черновик-модель), который предлагает сразу несколько токенов. Затем основная (целевая) модель проверяет их все параллельно в одном forward-проходе. Качество выхода при этом остаётся идентичным обычному декодингу (математически гарантировано), но скорость возрастает кратно. Если спекулятор угадывает правильно (высокий коэффициент принятия α), система обрабатывает сразу несколько токенов вместо одного. На практике это означает значительное сокращение time-to-first-token и ускорение всей генерации.
Как ATLAS отличается от других решений
Стандартные спекуляторы обучаются один раз на общей рабочей нагрузке и работают везде одинаково. Специализированные (custom speculators) обучают на конкретных данных компании, но только для одного момента времени. Когда рабочая нагрузка эволюционирует — растёт кодовая база, меняются паттерны трафика, сдвигается распределение запросов, появляются новые типы пользователей — даже сильно оптимизированные спекуляторы начинают отставать. ATLAS решает эту проблему принципиально иначе. Система непрерывно обучается (continual learning) по мере использования, адаптируясь к реальному трафику и поведению целевой модели в real-time. Чем дольше вы работаете с сервисом, тем лучше ATLAS предсказывает следующие действия основной модели, и тем выше коэффициент принятия. Это создаёт положительный feedback loop: каждый новый запрос — это тренировочный пример, который улучшает спекулятор.
Результаты на практике
Together AI продемонстрировала результаты на промышленном оборудовании NVIDIA HGX B200 с реальным трафиком: DeepSeek-V3.1: 500 TPS (токенов в секунду) — 2.65x быстрее стандартного декодинга Kimi-K2-0905: 460 TPS — также значительный прирост Сравнение с Groq: ATLAS в полностью адаптированном режиме превосходит производительность специализированного оборудования от Groq 4x ускорение в сравнении с базовым решением без оптимизации Эффективность достигается благодаря балансировке двух ключевых параметров: коэффициента принятия (α) — показателя того, как часто основная модель согласна с предложениями спекулятора — и относительной латентности (c) между скоростью спекулятора и целевой моделью. ATLAS автоматически находит сладкую точку, где спекулятор работает очень быстро, но при этом его предсказания достаточно точны для высокой принятия.
Интеграция в
Together Turbo ATLAS встраивается в Together Turbo — пакет инженерных решений для ускорения LLM от Together AI. Он работает параллельно с proprietary speculator и поддерживает использование custom speculators. Главное отличие: ATLAS требует нулевой ручной настройки параметров. Пользователи получают автоматические улучшения производительности просто от использования платформы. Это особенно критично для растущих команд, где рабочая нагрузка не статична. В growth-фазе, когда запросы поступают от разных типов пользователей, бизнес-логика постоянно эволюционирует, и требования к моделям меняются, старые оптимизации часто становятся неактуальными в течение недель или месяцев. ATLAS постоянно актуализируется сам.
Что это значит
Ускорение LLM inference переходит из разряда одноразовых инженерных задач в разряд встроенных живых особенностей сервиса. Разработчики и пользователи получают всё более быстрые ответы просто от использования платформы, без какого-либо ручного вмешательства. Для стартапов, агентств и компаний это означает реальное снижение затрат на обработку запросов к большим моделям в production.