Together AI Blog→ original

Together AI: GPT-5.5, Gemini y Opus no saben escribir kernels multi-GPU rápidos

Together AI lanzó ParallelKernelBench, un benchmark de 87 tareas de generación de kernels CUDA para sistemas multi-GPU tomadas de bases de código reales. Los…

Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI: GPT-5.5, Gemini y Opus no saben escribir kernels multi-GPU rápidos
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

Together AI publicó ParallelKernelBench (PKB) — el primer benchmark abierto para evaluar la capacidad de los modelos de lenguaje para generar kernels CUDA eficientes en entornos multi-GPU. Tras probar más de 40 modelos en 87 tareas reales, los investigadores descubrieron: los mejores modelos frontier resuelven menos de un tercio de las tareas correctamente — y solo un puñado de ellos superan realmente una implementación ingenua de PyTorch.

Por Qué Multi-GPU es Más Complejo

Los modelos de lenguaje ya han aprendido bastante bien a escribir código para una única GPU, y la mayoría de los benchmarks de programación GPU existentes se limitan exactamente a este escenario. Pero los sistemas de IA de producción reales hace tiempo que han superado este límite: funcionan en decenas y cientos de GPU simultáneamente. En tales configuraciones, la potencia computacional deja de ser el principal cuello de botella — ese papel lo asume la comunicación entre dispositivos.

Según Together AI, la sobrecarga de transferencia de datos entre GPU consume más del 20% de la latencia de inferencia — y esta brecha crecerá, ya que la potencia de los chips sigue superando el ancho de banda de la interconexión entre chips.

  • Explosión combinatoria de opciones — debes elegir entre paralelismo tensor, contexto, expert, datos y otros tipos, cada uno creando su propio patrón de comunicación
  • Modelo de desempeño diferente — en lugar de un roofline computacional local, la principal limitación se convierte en el ancho de banda de la interconexión entre chips
  • Nuevas decisiones arquitectónicas — cómo mover datos físicamente entre GPU: a través de copy engine, TMA, SM load/store o NVLS, y si se debe solapar la transferencia de datos con la computación

Cómo Funciona el Benchmark

PKB incluye 87 tareas de bases de código reales: Megatron-LM, DeepSpeed, DeepEP, TensorRT-LLM y NeMo-RL — así como cargas de trabajo distribuidas no estándar: enrutamiento en redes neuronales de grafos, FFT distribuido y Gaussian splatting. Esta selección abarca todos los enfoques principales de sharding: tensor, contexto, datos, expert, secuencia y FSDP/ZeRO. Cada tarea comienza con una implementación estándar de PyTorch + NCCL y una descripción de topología de hardware.

El modelo debe reemplazarla con su propio kernel CUDA que transmita datos directamente entre GPU sobre NVLink a través de memoria simétrica, evitando la pila estándar de operaciones colectivas. La evaluación se basa en tres criterios: corrección del resultado, aceleración wall-clock y logro del roofline de comunicación — el límite teórico del ancho de banda del enlace.

Resultados y Victorias Inesperadas

Together AI probó más de 40 modelos, incluyendo GPT-5.5, Gemini 3 Pro y Opus 4.7 — las variantes flagship actuales de OpenAI, Google y Anthropic. Los resultados fueron igualmente decepcionantes para todos:

  • El mejor modelo resolvió correctamente menos de un tercio de las 87 tareas
  • Menos de una cuarta parte de las soluciones correctas superó la implementación ingenua de base de PyTorch + NCCL
  • Fallos principales — en la gestión de comunicación entre GPU y en la selección del método correcto de transferencia de datos

Al mismo tiempo, varias soluciones resultaron ser inesperadamente fuertes: kernels individuales generados superaron todas las implementaciones disponibles públicamente. Particularmente revelador es el caso del entrenamiento GRPO en NVIDIA NeMo-RL — para esta operación no existía código público optimizado hasta ahora, y el modelo de lenguaje lo escribió antes que los humanos.

"Varios kernels generados resultaron ser más rápidos que cualquier cosa disponible públicamente," — del reporte técnico de

ParallelKernelBench.

Qué Significa Todo Esto

PKB marca la próxima frontera en la evolución del coding con IA: la transición de GPU único a sistemas distribuidos multi-GPU. Por ahora, los modelos frontier no pueden manejar esto — pero los raros destellos de éxito sugieren que el progreso es posible con la recopilación enfocada de datos de entrenamiento especializados. Para equipos que optimizan la inferencia y el entrenamiento en clusters de GPU, este es un benchmark importante: la herramienta está madurando, pero aún no está lista para su adopción generalizada.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…