NVIDIA Developer Blog→ оригинал

NVIDIA Vera Rubin: как разработчики будут масштабировать агентский ИИ без задержек

NVIDIA выпустила Vera Rubin — платформу для высокоскоростного агентского ИИ. Комбинирует GPU Vera Rubin и ускоритель Groq 3 LPX. На триллион-параметрных моделях

NVIDIA Vera Rubin: как разработчики будут масштабировать агентский ИИ без задержек
Источник: NVIDIA Developer Blog. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA представила платформу Vera Rubin, которая решает главную проблему масштабирования агентского ИИ — непредсказуемые задержки в многоходовых сессиях.

Почему агентский ИИ сложнее масштабировать

Обычное масштабирование моделей работает для batch-обработки: передал много текстов, получил много ответов. Но агентский ИИ работает иначе. Агент принимает решение, совершает действие, смотрит результат, делает следующее решение. Это сотни запросов к модели за одну сессию, каждый с маленьким batch-размером и очень строгим требованием к скорости. Так как траектория агента непредсказуема заранее (какое действие выберет агент — неизвестно), компилировать и оптимизировать обработку сложно. Задержки накапливаются, и 400K-токенный контекст становится узким местом.

Трёхслойное решение

Vera Rubin Вместо универсального подхода NVIDIA встроила в платформу три технологии, работающие вместе: Прямые кабельные соединения между чипами — каждый LPU связан с 96 другими на скорости 112 Гбит/сек, обеспечивая 640 ТБ/сек пропускной способности на стойку без коммутаторов Компилер планирует все переводы данных заранее — вместо того чтобы во время выполнения решать, когда и куда отправить данные, компилер заранее рассчитывает каждый бит информации через сеть * Синхронизация тысяч независимых чипов — система выравнивает часы LPU-ускорителей, чтобы сеть работала с известной, предсказуемой задержкой ## Гибридное ускорение: NVIDIA + Groq Платформа использует разделение труда между GPU и специализированными ускорителями. Vera Rubin NVL72 обрабатывает attention-слои (они любят высокую пропускную способность), а Groq 3 LPX берёт на себя FFN-слои (они требуют низкую задержку при последовательной генерации). KV-кеш синхронизируется между ними по одному токену.

Это сложно звучит, но в результате система работает без компромиссов между скоростью и качеством.

Что получилось * **400 токенов в секунду** на 1-триллион-параметрных

MoE-моделях с контекстом 400K 35x больше пропускной способности на ватт чем у GB200 NVL72 Предсказуемая задержка даже при одновременной работе нескольких агентов ## Что это значит Для разработчиков AI-агентов это значит, что отныне задержка и масштабируемость — не враги. Vera Rubin позволяет ставить на стол большие модели (триллион параметров) и запускать в них сложные агенты без компромисса на скорость ответа. В практике это означает, что персональные ассистенты, автоматизаторы и рабочие агенты смогут работать быстро даже с длинным контекстом.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…