NVIDIA Vera Rubin: cómo los desarrolladores escalarán la IA de agentes sin latencias

Q: ¿Cuál es la fuente?

Publicado originalmente en NVIDIA Developer Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2026-05-21. Tiempo de lectura: 3 min.

NVIDIA lanzó Vera Rubin, una plataforma para IA de agentes de alta velocidad. Combina la GPU Vera Rubin y el acelerador Groq 3 LPX. En modelos de un billón de p

Redacción de Hamidun News

Monitoreo de AI · NVIDIA Developer Blog

2026-05-21· 3 min

Procesado por IA desde NVIDIA Developer Blog; editado por Hamidun News

NVIDIA Vera Rubin: cómo los desarrolladores escalarán la IA de agentes sin latencias — Fuente: NVIDIA Developer Blog. Collage: Hamidun News.

◐ Escuchar artículo

NVIDIA presentó la plataforma Vera Rubin, que resuelve el principal problema del escalado de la IA de agentes: las latencias impredecibles en sesiones de múltiples pasos.

Por qué es más difícil escalar la IA de agentes

El escalado normal de modelos funciona para procesamiento por lotes: proporcionas muchos textos y obtienes muchas respuestas. Pero la IA de agentes funciona de manera diferente. El agente toma una decisión, realiza una acción, observa el resultado, toma la siguiente decisión. Son cientos de solicitudes al modelo en una sola sesión, cada una con un tamaño de lote pequeño y requisitos muy estrictos de velocidad. Como la trayectoria del agente es impredecible de antemano (qué acción elegirá el agente es desconocido), es difícil compilar y optimizar el procesamiento. Las latencias se acumulan y el contexto de 400K tokens se convierte en un cuello de botella.

La solución de tres capas de

Vera Rubin En lugar de un enfoque universal, NVIDIA integró en la plataforma tres tecnologías que funcionan juntas: Conexiones de cable directo entre chips — cada LPU está conectado con 96 otros a una velocidad de 112 Gbps, proporcionando 640 TB/seg de ancho de banda por bastidor sin conmutadores El compilador planifica todas las transferencias de datos por adelantado — en lugar de decidir en tiempo de ejecución cuándo y dónde enviar datos, el compilador calcula de antemano cada bit de información a través de la red * Sincronización de miles de chips independientes — el sistema sincroniza los relojes de los aceleradores LPU para que la red funcione con una latencia conocida y predecible ## Aceleración híbrida: NVIDIA + Groq La plataforma utiliza una división del trabajo entre las GPU y los aceleradores especializados. Vera Rubin NVL72 procesa las capas de atención (que prefieren alto ancho de banda), mientras que Groq 3 LPX maneja las capas FFN (que requieren baja latencia en la generación secuencial). El caché KV se sincroniza entre ellos token a token.

Suena complicado, pero como resultado el sistema funciona sin compromisos entre velocidad y calidad.

Qué se logró * 400 tokens por segundo en modelos

MoE de un billón de parámetros con contexto de 400K 35 veces más ancho de banda por vatio que GB200 NVL72 Latencia predecible incluso cuando múltiples agentes funcionan simultáneamente ## Qué significa esto Para los desarrolladores de agentes de IA, esto significa que a partir de ahora la latencia y la escalabilidad ya no son enemigos. Vera Rubin permite desplegar modelos grandes (un billón de parámetros) y ejecutar agentes complejos en ellos sin comprometer la velocidad de respuesta. En la práctica, esto significa que los asistentes personales, automatizadores y agentes de trabajo podrán funcionar rápidamente incluso con contextos largos.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita

NVIDIA Vera Rubin: cómo los desarrolladores escalarán la IA de agentes sin latencias

Por qué es más difícil escalar la IA de agentes

La solución de tres capas de

Qué se logró * **400 tokens por segundo** en modelos

¿Quieres dejar de leer sobre IA y empezar a usarla?

Qué se logró * 400 tokens por segundo en modelos