NVIDIA Developer Blog→ المصدر

NVIDIA Vera Rubin: как разработчики будут масштабировать агентский ИИ без задержек

NVIDIA выпустила Vera Rubin — платформу для высокоскоростного агентского ИИ. Комбинирует GPU Vera Rubin и ускоритель Groq 3 LPX. На триллион-параметрных моделях

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
NVIDIA Vera Rubin: как разработчики будут масштабировать агентский ИИ без задержек
المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.

NVIDIA представила платформу Vera Rubin, которая решает главную проблему масштабирования агентского ИИ — непредсказуемые задержки в многоходовых сессиях.

Почему агентский ИИ сложнее масштабировать

Обычное масштабирование моделей работает для batch-обработки: передал много текстов, получил много ответов. Но агентский ИИ работает иначе. Агент принимает решение, совершает действие, смотрит результат, делает следующее решение. Это сотни запросов к модели за одну сессию, каждый с маленьким batch-размером и очень строгим требованием к скорости. Так как траектория агента непредсказуема заранее (какое действие выберет агент — неизвестно), компилировать и оптимизировать обработку сложно. Задержки накапливаются, и 400K-токенный контекст становится узким местом.

Трёхслойное решение

Vera Rubin Вместо универсального подхода NVIDIA встроила в платформу три технологии, работающие вместе: Прямые кабельные соединения между чипами — каждый LPU связан с 96 другими на скорости 112 Гбит/сек, обеспечивая 640 ТБ/сек пропускной способности на стойку без коммутаторов Компилер планирует все переводы данных заранее — вместо того чтобы во время выполнения решать, когда и куда отправить данные, компилер заранее рассчитывает каждый бит информации через сеть * Синхронизация тысяч независимых чипов — система выравнивает часы LPU-ускорителей, чтобы сеть работала с известной, предсказуемой задержкой ## Гибридное ускорение: NVIDIA + Groq Платформа использует разделение труда между GPU и специализированными ускорителями. Vera Rubin NVL72 обрабатывает attention-слои (они любят высокую пропускную способность), а Groq 3 LPX берёт на себя FFN-слои (они требуют низкую задержку при последовательной генерации). KV-кеш синхронизируется между ними по одному токену.

Это сложно звучит, но в результате система работает без компромиссов между скоростью и качеством.

Что получилось * **400 токенов в секунду** на 1-триллион-параметрных

MoE-моделях с контекстом 400K 35x больше пропускной способности на ватт чем у GB200 NVL72 Предсказуемая задержка даже при одновременной работе нескольких агентов ## Что это значит Для разработчиков AI-агентов это значит, что отныне задержка и масштабируемость — не враги. Vera Rubin позволяет ставить на стол большие модели (триллион параметров) и запускать в них сложные агенты без компромисса на скорость ответа. В практике это означает, что персональные ассистенты, автоматизаторы и рабочие агенты смогут работать быстро даже с длинным контекстом.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…