NVIDIA Vera Rubin: cómo los desarrolladores escalarán la IA de agentes sin latencias
NVIDIA lanzó Vera Rubin, una plataforma para IA de agentes de alta velocidad. Combina la GPU Vera Rubin y el acelerador Groq 3 LPX. En modelos de un billón de p
Procesado por IA desde NVIDIA Developer Blog; editado por Hamidun News
NVIDIA presentó la plataforma Vera Rubin, que resuelve el principal problema del escalado de la IA de agentes: las latencias impredecibles en sesiones de múltiples pasos.
Por qué es más difícil escalar la IA de agentes
El escalado normal de modelos funciona para procesamiento por lotes: proporcionas muchos textos y obtienes muchas respuestas. Pero la IA de agentes funciona de manera diferente. El agente toma una decisión, realiza una acción, observa el resultado, toma la siguiente decisión. Son cientos de solicitudes al modelo en una sola sesión, cada una con un tamaño de lote pequeño y requisitos muy estrictos de velocidad. Como la trayectoria del agente es impredecible de antemano (qué acción elegirá el agente es desconocido), es difícil compilar y optimizar el procesamiento. Las latencias se acumulan y el contexto de 400K tokens se convierte en un cuello de botella.
La solución de tres capas de
Vera Rubin En lugar de un enfoque universal, NVIDIA integró en la plataforma tres tecnologías que funcionan juntas: Conexiones de cable directo entre chips — cada LPU está conectado con 96 otros a una velocidad de 112 Gbps, proporcionando 640 TB/seg de ancho de banda por bastidor sin conmutadores El compilador planifica todas las transferencias de datos por adelantado — en lugar de decidir en tiempo de ejecución cuándo y dónde enviar datos, el compilador calcula de antemano cada bit de información a través de la red * Sincronización de miles de chips independientes — el sistema sincroniza los relojes de los aceleradores LPU para que la red funcione con una latencia conocida y predecible ## Aceleración híbrida: NVIDIA + Groq La plataforma utiliza una división del trabajo entre las GPU y los aceleradores especializados. Vera Rubin NVL72 procesa las capas de atención (que prefieren alto ancho de banda), mientras que Groq 3 LPX maneja las capas FFN (que requieren baja latencia en la generación secuencial). El caché KV se sincroniza entre ellos token a token.
Suena complicado, pero como resultado el sistema funciona sin compromisos entre velocidad y calidad.
Qué se logró * **400 tokens por segundo** en modelos
MoE de un billón de parámetros con contexto de 400K 35 veces más ancho de banda por vatio que GB200 NVL72 Latencia predecible incluso cuando múltiples agentes funcionan simultáneamente ## Qué significa esto Para los desarrolladores de agentes de IA, esto significa que a partir de ahora la latencia y la escalabilidad ya no son enemigos. Vera Rubin permite desplegar modelos grandes (un billón de parámetros) y ejecutar agentes complejos en ellos sin comprometer la velocidad de respuesta. En la práctica, esto significa que los asistentes personales, automatizadores y agentes de trabajo podrán funcionar rápidamente incluso con contextos largos.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.