Together AI обогнал TensorRT-LLM на 31% в бенчмарках для кодовых агентов
Together AI опубликовала первые честные бенчмарки для production-нагрузки кодовых агентов. Together Inference Engine обогнал TensorRT-LLM на 31% по токенам в…
AI-обработка оригинала Together AI Blog; редакция Hamidun News
Together AI опубликовала первые production-ориентированные бенчмарки inference для кодовых агентов — и результаты ставят под сомнение большинство привычных тестов индустрии.
Почему стандартные бенчмарки бесполезны
Классический бенчмарк inference измеряет одного пользователя на выделенном сервере. Цифры выглядят впечатляюще — и ничего не говорят о реальных условиях работы. В production десятки и сотни запросов одновременно конкурируют за один KV-кеш, пропускную способность памяти и GPU-циклы. Чем больше трафик, тем сильнее растёт время до первого токена (TTFT). В какой-то момент система перестаёт быть полезной ещё до формального сбоя. Разные движки достигают этой точки при очень разных уровнях нагрузки — именно это и нужно измерять. Together AI спроектировала тест именно под этот сценарий: нагрузка кодовых агентов, длинный контекст, высокая конкурентность и нулевая терпимость к деградации латентности.
Что делает кодовых агентов особой нагрузкой
Запросы coding agent'ов несут огромный контекст: редактируемый файл, окружающий код, история диалога, фрагменты из векторного поиска. Длина входных токенов варьировалась от 45 до 200 тысяч — симуляция реального роста сессии разработки. Средняя длина ответа составила около 450 токенов: агент пишет функцию, а не роман.
Именно такая нагрузка создаёт три проблемы, которые стандартные тесты не замечают: * TTFT-чувствительность. Разработчик видит пустой экран до прихода первого токена. В этот промежуток — между отправкой и началом стриминга — теряется доверие к инструменту.
Скорость генерации вторична: когда токены уже идут, опыт ощущается быстрым. * Конкурентный длинный контекст. Десятки разработчиков с запросами по 80+ тысяч токенов заполняют KV-кеш одновременно.
Планировщик теряет манёвр, TTFT ползёт вверх — и система деградирует задолго до формального сбоя. * Prefill-ориентированный профиль. Нагрузка здесь преимущественно на prefill, а не на decode.
Движки, заточенные под длинную генерацию, не получают привычного преимущества. Тест проводился на 4× NVIDIA B200 для каждого движка.
Результаты
Together Inference Engine Together Inference Engine сравнивался с TensorRT-LLM и другими ведущими OSS-движками на одинаковом железе. На production-нагрузке кодовых агентов результаты оказались следующими: +31% токенов в секунду (TPS) по сравнению с ближайшим OSS-конкурентом В 2 раза лучший TTFT при насыщении трафика На 76% ниже стоимость по сравнению с Claude Opus 4 от Anthropic Стабильная латентность при высокой конкурентности — там, где конкуренты уже деградируют Прирост обеспечила полностековая оптимизация: технология ThunderMLA, переписанные кастомные CUDA-ядра и end-to-end профилирование на реальном трафике.
«Большинство бенчмарков измеряют одного пользователя на выделенном сервере.
Цифры выглядят великолепно. Они абсолютно бесполезны для рассуждений о production», — говорится в блоге Together AI.
Что это значит
Разрыв между inference-движками огромен именно при реальной нагрузке — в синтетических тестах его не видно. Для команд, строящих AI-ассистентов для разработчиков, выбор провайдера напрямую влияет на то, сколько пользователей одновременно получат быстрый ответ — а сколько будут смотреть в пустой экран. Production-quality inference — это уже не технический нюанс, а конкурентное преимущество.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.