Together AI: GPT-5.5, Gemini y Opus no saben escribir kernels multi-GPU rápidos

Together AI lanzó ParallelKernelBench, un benchmark de 87 tareas de generación de kernels CUDA para sistemas multi-GPU tomadas de bases de código reales. Los…

Redacción de Hamidun News

Monitoreo de AI · Together AI Blog

30 jun 2026· 3 min

Procesado por IA desde Together AI Blog; editado por Hamidun News

Together AI: GPT-5.5, Gemini y Opus no saben escribir kernels multi-GPU rápidos — Fuente: Together AI Blog. Collage: Hamidun News.

◐ Escuchar artículo

Together AI publicó ParallelKernelBench (PKB) — el primer benchmark abierto para evaluar la capacidad de los modelos de lenguaje para generar kernels CUDA eficientes en entornos multi-GPU. Tras probar más de 40 modelos en 87 tareas reales, los investigadores descubrieron: los mejores modelos frontier resuelven menos de un tercio de las tareas correctamente — y solo un puñado de ellos superan realmente una implementación ingenua de PyTorch.

Por Qué Multi-GPU es Más Complejo

Los modelos de lenguaje ya han aprendido bastante bien a escribir código para una única GPU, y la mayoría de los benchmarks de programación GPU existentes se limitan exactamente a este escenario. Pero los sistemas de IA de producción reales hace tiempo que han superado este límite: funcionan en decenas y cientos de GPU simultáneamente. En tales configuraciones, la potencia computacional deja de ser el principal cuello de botella — ese papel lo asume la comunicación entre dispositivos.

Según Together AI, la sobrecarga de transferencia de datos entre GPU consume más del 20% de la latencia de inferencia — y esta brecha crecerá, ya que la potencia de los chips sigue superando el ancho de banda de la interconexión entre chips.

Explosión combinatoria de opciones — debes elegir entre paralelismo tensor, contexto, expert, datos y otros tipos, cada uno creando su propio patrón de comunicación
Modelo de desempeño diferente — en lugar de un roofline computacional local, la principal limitación se convierte en el ancho de banda de la interconexión entre chips
Nuevas decisiones arquitectónicas — cómo mover datos físicamente entre GPU: a través de copy engine, TMA, SM load/store o NVLS, y si se debe solapar la transferencia de datos con la computación

Cómo Funciona el Benchmark

PKB incluye 87 tareas de bases de código reales: Megatron-LM, DeepSpeed, DeepEP, TensorRT-LLM y NeMo-RL — así como cargas de trabajo distribuidas no estándar: enrutamiento en redes neuronales de grafos, FFT distribuido y Gaussian splatting. Esta selección abarca todos los enfoques principales de sharding: tensor, contexto, datos, expert, secuencia y FSDP/ZeRO. Cada tarea comienza con una implementación estándar de PyTorch + NCCL y una descripción de topología de hardware.

El modelo debe reemplazarla con su propio kernel CUDA que transmita datos directamente entre GPU sobre NVLink a través de memoria simétrica, evitando la pila estándar de operaciones colectivas. La evaluación se basa en tres criterios: corrección del resultado, aceleración wall-clock y logro del roofline de comunicación — el límite teórico del ancho de banda del enlace.

Resultados y Victorias Inesperadas

Together AI probó más de 40 modelos, incluyendo GPT-5.5, Gemini 3 Pro y Opus 4.7 — las variantes flagship actuales de OpenAI, Google y Anthropic. Los resultados fueron igualmente decepcionantes para todos:

El mejor modelo resolvió correctamente menos de un tercio de las 87 tareas
Menos de una cuarta parte de las soluciones correctas superó la implementación ingenua de base de PyTorch + NCCL
Fallos principales — en la gestión de comunicación entre GPU y en la selección del método correcto de transferencia de datos

Al mismo tiempo, varias soluciones resultaron ser inesperadamente fuertes: kernels individuales generados superaron todas las implementaciones disponibles públicamente. Particularmente revelador es el caso del entrenamiento GRPO en NVIDIA NeMo-RL — para esta operación no existía código público optimizado hasta ahora, y el modelo de lenguaje lo escribió antes que los humanos.

"Varios kernels generados resultaron ser más rápidos que cualquier cosa disponible públicamente," — del reporte técnico de

ParallelKernelBench.

Qué Significa Todo Esto

PKB marca la próxima frontera en la evolución del coding con IA: la transición de GPU único a sistemas distribuidos multi-GPU. Por ahora, los modelos frontier no pueden manejar esto — pero los raros destellos de éxito sugieren que el progreso es posible con la recopilación enfocada de datos de entrenamiento especializados. Para equipos que optimizan la inferencia y el entrenamiento en clusters de GPU, este es un benchmark importante: la herramienta está madurando, pero aún no está lista para su adopción generalizada.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita