Together AI Blog→ original

Together AI superó a TensorRT-LLM en un 31% en benchmarks para agentes de código

Together AI publicó los primeros benchmarks justos para cargas de producción de agentes de código. Together Inference Engine superó a TensorRT-LLM en un 31%…

Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI superó a TensorRT-LLM en un 31% en benchmarks para agentes de código
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

Together AI publicó los primeros benchmarks de inference orientados a producción para agentes de código — y los resultados cuestionan la mayoría de las pruebas convencionales de la industria.

Por Qué los Benchmarks Estándar Son Inútiles

Un benchmark de inference clásico mide un único usuario en un servidor dedicado. Los números se ven impresionantes — y no revelan nada sobre las condiciones reales de funcionamiento. En producción, docenas y cientos de solicitudes compiten simultáneamente por un único KV-cache, ancho de banda de memoria y ciclos de GPU. Cuanto más tráfico, más crece el tiempo al primer token (TTFT). En algún momento, el sistema se vuelve inutilizable antes de la falla formal. Diferentes motores alcanzan este punto en niveles muy diferentes de carga — y eso es exactamente lo que debe medirse.

Together AI diseñó la prueba precisamente para este escenario: carga de agentes de código, contexto largo, alta concurrencia y cero tolerancia para degradación de latencia.

Qué Hace que los Agentes de Código Sean una Carga Especial

Las solicitudes de agentes de código llevan un contexto enorme: el archivo editado, código circundante, historial de diálogo, fragmentos de búsqueda vectorial. La longitud del token de entrada varió de 45 a 200 mil — simulando el crecimiento real de la sesión durante el desarrollo. La longitud promedio de respuesta fue de alrededor de 450 tokens: el agente escribe una función, no una novela.

Este tipo de carga crea tres problemas que las pruebas estándar pierden:

  • Sensibilidad TTFT. El desarrollador ve una pantalla en blanco hasta la llegada del primer token. En este intervalo — entre enviar e iniciar el streaming — se pierde la confianza en la herramienta. La velocidad de generación es secundaria: una vez que los tokens comienzan a fluir, la experiencia se siente rápida.
  • Contexto largo concurrente. Docenas de desarrolladores con solicitudes de 80+ mil tokens llenan el KV-cache simultáneamente. El planificador pierde capacidad de maniobra, TTFT sube — y el sistema se degrada mucho antes de la falla formal.
  • Perfil orientado al prefill. La carga aquí es predominantemente en prefill, no en decode. Los motores optimizados para generación larga no obtienen su ventaja usual.

La prueba se ejecutó en 4× NVIDIA B200 para cada motor.

Resultados de Together Inference Engine

Together Inference Engine se comparó con TensorRT-LLM y otros motores OSS líderes en hardware idéntico. En la carga de producción para agentes de código, los resultados fueron:

  • +31% tokens por segundo (TPS) en comparación con el competidor OSS más cercano
  • TTFT 2x mejor en saturación de tráfico
  • 76% de costo reducido en comparación con Claude Opus 4 de Anthropic
  • Latencia estable bajo alta concurrencia — donde los competidores ya se degradan

Las ganancias provinieron de optimización full-stack: tecnología ThunderMLA, kernels CUDA personalizados reescritos y perfilado end-to-end en tráfico real.

"La mayoría de los benchmarks miden un único usuario en un servidor dedicado.

Los números se ven excelentes. Son completamente inútiles para razonar sobre producción", dice el blog de Together AI.

Qué Significa Esto

La brecha entre motores de inference es enorme precisamente bajo carga real — no la ves en pruebas sintéticas. Para equipos que construyen asistentes IA para desarrolladores, la elección del proveedor afecta directamente cuántos usuarios simultáneamente reciben una respuesta rápida — y cuántos ven una pantalla en blanco. Inference de calidad producción ya no es un matiz técnico, sino una ventaja competitiva.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…