Together AI: GPT-5.5, Gemini y Opus no saben escribir kernels multi-GPU rápidos
Together AI lanzó ParallelKernelBench, un benchmark de 87 tareas de generación de kernels CUDA para sistemas multi-GPU tomadas de bases de código reales. Los…
Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI publicó ParallelKernelBench (PKB) — el primer benchmark abierto para evaluar la capacidad de los modelos de lenguaje para generar kernels CUDA eficientes en entornos multi-GPU. Tras probar más de 40 modelos en 87 tareas reales, los investigadores descubrieron: los mejores modelos frontier resuelven menos de un tercio de las tareas correctamente — y solo un puñado de ellos superan realmente una implementación ingenua de PyTorch.
Por Qué Multi-GPU es Más Complejo
Los modelos de lenguaje ya han aprendido bastante bien a escribir código para una única GPU, y la mayoría de los benchmarks de programación GPU existentes se limitan exactamente a este escenario. Pero los sistemas de IA de producción reales hace tiempo que han superado este límite: funcionan en decenas y cientos de GPU simultáneamente. En tales configuraciones, la potencia computacional deja de ser el principal cuello de botella — ese papel lo asume la comunicación entre dispositivos.
Según Together AI, la sobrecarga de transferencia de datos entre GPU consume más del 20% de la latencia de inferencia — y esta brecha crecerá, ya que la potencia de los chips sigue superando el ancho de banda de la interconexión entre chips.
- Explosión combinatoria de opciones — debes elegir entre paralelismo tensor, contexto, expert, datos y otros tipos, cada uno creando su propio patrón de comunicación
- Modelo de desempeño diferente — en lugar de un roofline computacional local, la principal limitación se convierte en el ancho de banda de la interconexión entre chips
- Nuevas decisiones arquitectónicas — cómo mover datos físicamente entre GPU: a través de copy engine, TMA, SM load/store o NVLS, y si se debe solapar la transferencia de datos con la computación
Cómo Funciona el Benchmark
PKB incluye 87 tareas de bases de código reales: Megatron-LM, DeepSpeed, DeepEP, TensorRT-LLM y NeMo-RL — así como cargas de trabajo distribuidas no estándar: enrutamiento en redes neuronales de grafos, FFT distribuido y Gaussian splatting. Esta selección abarca todos los enfoques principales de sharding: tensor, contexto, datos, expert, secuencia y FSDP/ZeRO. Cada tarea comienza con una implementación estándar de PyTorch + NCCL y una descripción de topología de hardware.
El modelo debe reemplazarla con su propio kernel CUDA que transmita datos directamente entre GPU sobre NVLink a través de memoria simétrica, evitando la pila estándar de operaciones colectivas. La evaluación se basa en tres criterios: corrección del resultado, aceleración wall-clock y logro del roofline de comunicación — el límite teórico del ancho de banda del enlace.
Resultados y Victorias Inesperadas
Together AI probó más de 40 modelos, incluyendo GPT-5.5, Gemini 3 Pro y Opus 4.7 — las variantes flagship actuales de OpenAI, Google y Anthropic. Los resultados fueron igualmente decepcionantes para todos:
- El mejor modelo resolvió correctamente menos de un tercio de las 87 tareas
- Menos de una cuarta parte de las soluciones correctas superó la implementación ingenua de base de PyTorch + NCCL
- Fallos principales — en la gestión de comunicación entre GPU y en la selección del método correcto de transferencia de datos
Al mismo tiempo, varias soluciones resultaron ser inesperadamente fuertes: kernels individuales generados superaron todas las implementaciones disponibles públicamente. Particularmente revelador es el caso del entrenamiento GRPO en NVIDIA NeMo-RL — para esta operación no existía código público optimizado hasta ahora, y el modelo de lenguaje lo escribió antes que los humanos.
"Varios kernels generados resultaron ser más rápidos que cualquier cosa disponible públicamente," — del reporte técnico de
ParallelKernelBench.
Qué Significa Todo Esto
PKB marca la próxima frontera en la evolución del coding con IA: la transición de GPU único a sistemas distribuidos multi-GPU. Por ahora, los modelos frontier no pueden manejar esto — pero los raros destellos de éxito sugieren que el progreso es posible con la recopilación enfocada de datos de entrenamiento especializados. Para equipos que optimizan la inferencia y el entrenamiento en clusters de GPU, este es un benchmark importante: la herramienta está madurando, pero aún no está lista para su adopción generalizada.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.