Together AI обогнал TensorRT-LLM на 31% в бенчмарках для кодовых агентов

Together AI опубликовала первые честные бенчмарки для production-нагрузки кодовых агентов. Together Inference Engine обогнал TensorRT-LLM на 31% по токенам в…

ЖХ

Редакция Hamidun News

AI‑мониторинг · Together AI Blog

30 июн. 2026 г.· 2 мин

AI-обработка оригинала Together AI Blog; редакция Hamidun News

Together AI обогнал TensorRT-LLM на 31% в бенчмарках для кодовых агентов — Источник: Together AI Blog. Коллаж: Hamidun News.

◐ Слушать статью

Together AI опубликовала первые production-ориентированные бенчмарки inference для кодовых агентов — и результаты ставят под сомнение большинство привычных тестов индустрии.

Почему стандартные бенчмарки бесполезны

Классический бенчмарк inference измеряет одного пользователя на выделенном сервере. Цифры выглядят впечатляюще — и ничего не говорят о реальных условиях работы. В production десятки и сотни запросов одновременно конкурируют за один KV-кеш, пропускную способность памяти и GPU-циклы. Чем больше трафик, тем сильнее растёт время до первого токена (TTFT). В какой-то момент система перестаёт быть полезной ещё до формального сбоя. Разные движки достигают этой точки при очень разных уровнях нагрузки — именно это и нужно измерять. Together AI спроектировала тест именно под этот сценарий: нагрузка кодовых агентов, длинный контекст, высокая конкурентность и нулевая терпимость к деградации латентности.

Что делает кодовых агентов особой нагрузкой

Запросы coding agent'ов несут огромный контекст: редактируемый файл, окружающий код, история диалога, фрагменты из векторного поиска. Длина входных токенов варьировалась от 45 до 200 тысяч — симуляция реального роста сессии разработки. Средняя длина ответа составила около 450 токенов: агент пишет функцию, а не роман.

Именно такая нагрузка создаёт три проблемы, которые стандартные тесты не замечают: * TTFT-чувствительность. Разработчик видит пустой экран до прихода первого токена. В этот промежуток — между отправкой и началом стриминга — теряется доверие к инструменту.

Скорость генерации вторична: когда токены уже идут, опыт ощущается быстрым. * Конкурентный длинный контекст. Десятки разработчиков с запросами по 80+ тысяч токенов заполняют KV-кеш одновременно.

Планировщик теряет манёвр, TTFT ползёт вверх — и система деградирует задолго до формального сбоя. * Prefill-ориентированный профиль. Нагрузка здесь преимущественно на prefill, а не на decode.

Движки, заточенные под длинную генерацию, не получают привычного преимущества. Тест проводился на 4× NVIDIA B200 для каждого движка.

Результаты

Together Inference Engine Together Inference Engine сравнивался с TensorRT-LLM и другими ведущими OSS-движками на одинаковом железе. На production-нагрузке кодовых агентов результаты оказались следующими: +31% токенов в секунду (TPS) по сравнению с ближайшим OSS-конкурентом В 2 раза лучший TTFT при насыщении трафика На 76% ниже стоимость по сравнению с Claude Opus 4 от Anthropic Стабильная латентность при высокой конкурентности — там, где конкуренты уже деградируют Прирост обеспечила полностековая оптимизация: технология ThunderMLA, переписанные кастомные CUDA-ядра и end-to-end профилирование на реальном трафике.

«Большинство бенчмарков измеряют одного пользователя на выделенном сервере.

Цифры выглядят великолепно. Они абсолютно бесполезны для рассуждений о production», — говорится в блоге Together AI.

Что это значит

Разрыв между inference-движками огромен именно при реальной нагрузке — в синтетических тестах его не видно. Для команд, строящих AI-ассистентов для разработчиков, выбор провайдера напрямую влияет на то, сколько пользователей одновременно получат быстрый ответ — а сколько будут смотреть в пустой экран. Production-quality inference — это уже не технический нюанс, а конкурентное преимущество.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.