Habr AI→ оригинал

NVIDIA на GTC 2026 сместила фокус с чипов на фабрики токенов и эру Agent-as-a-Service

NVIDIA на GTC 2026 показала разворот от гонки отдельных GPU к экономике инференса. Главные акценты — 20 лет CUDA как фундамента экосистемы, переход от SaaS к…

AI-обработка оригинала Habr AI; редакция Hamidun News
NVIDIA на GTC 2026 сместила фокус с чипов на фабрики токенов и эру Agent-as-a-Service
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA на GTC 2026 показала, что следующий этап AI-рынка будет строиться не вокруг отдельных GPU, а вокруг фабрик инференса, где главным продуктом становятся токены и действия агентов. Ключевой тезис кейноута: компания продает уже не просто ускорители, а целостную инфраструктуру для промышленного выпуска AI-результата — от библиотек CUDA до серверных стоек, сетей и корпоративного программного слоя.

Двадцать лет CUDA как основа

Отправной точкой для этого разворота стали двадцать лет CUDA. Именно ставка на программную платформу когда-то превратила видеокарты NVIDIA из нишевого железа в универсальный вычислительный инструмент для машинного обучения. На GTC этот путь был показан как последовательная эволюция: сначала экосистема библиотек и фреймворков, затем системы DGX, а теперь — готовые модульные блоки для больших AI-кластеров. Логика проста: даже самый мощный чип мало что значит без софта, оптимизаций и возможности быстро разворачивать прикладные сценарии на продакшене.

От SaaS к Agent-as-a-Service

Отсюда вытекает и второй тезис NVIDIA: рынок двигается от модели SaaS к Agent-as-a-Service. Если раньше компании платили за доступ к инструменту, а результат добывал сотрудник, то теперь бизнес начинает платить за выполненное AI-действие. Агент должен не просто сгенерировать текст, а закрыть задачу: обработать запрос, провести анализ, подготовить документ, принять решение в рамках заданных правил. Поэтому мерилом эффективности становится не абстрактная производительность в флопсах, а стоимость полезного токена и итоговая цена осмысленного действия. В этой логике инференс превращается в отдельную экономику, а дата-центры — в производственные площадки для выпуска интеллектуальной работы.

Концепция Token Factory

Именно здесь NVIDIA продвигает концепцию Token Factory. Компания предлагает смотреть на современные AI-ЦОД не как на место хранения данных, а как на фабрики, где на входе электричество и инфраструктура, а на выходе — поток токенов для приложений, ассистентов и автономных агентов. На GTC прозвучала оценка, что к 2027 году мировые расходы на строительство и модернизацию таких мощностей могут приблизиться к 1 трлн долларов. Спрос на них подпитывает не только корпоративный AI, но и рост открытых моделей, которые вплотную подошли к переднему краю по качеству и делают запуск собственных сервисов доступнее для большего числа компаний.

Архитектура Vera Rubin

Аппаратной опорой этой стратегии стала архитектура Vera Rubin. NVIDIA описывает ее не как очередной прирост мощности по сравнению с предыдущим поколением, а как попытку переупаковать весь стек под инференс. Важна уже не одна карта и даже не один сервер, а вся стойка целиком: вычисления, CPU, память, хранение, сеть, безопасность и оптические соединения между модулями.

Такой подход нужен, чтобы одновременно поднять пропускную способность и отзывчивость систем, не взорвав расходы на электричество. Отдельный акцент сделан на модульности: конфигурации можно собирать под разные типы нагрузки — от массовых быстрых ответов до дорогого reasoning в реальном времени. Это задает и новую сегментацию рынка: дешевые ответы для широкого потребления и премиальный инференс для сложных агентных сценариев.

Еще один важный сигнал с GTC — AI-агенты все явнее рассматриваются как часть корпоративной инфраструктуры, а не как экспериментальная надстройка поверх чатов. Поэтому рядом с железом NVIDIA продвигает и программные референсные архитектуры для внедрения агентов в крупный бизнес. Смысл в том, чтобы агент работал в рамках политик безопасности, имел доступ только к разрешенным интерфейсам и предсказуемо встраивался в существующий IT-ландшафт компании.

Для enterprise это, возможно, даже важнее самих чипов: без контроля, аудита и управляемости никакая автономность не дойдет до продакшена.

Главный вывод

Главный вывод из GTC 2026 в том, что NVIDIA пытается занять не только рынок ускорителей, но и позицию базового поставщика экономики инференса. Если раньше конкуренция шла за количество транзисторов и лидерство в обучении моделей, то теперь центр тяжести смещается к стоимости полезного действия, устойчивости AI-сервисов и скорости развертывания агентных систем. Для рынка это означает переход от разговоров о «самом мощном GPU» к вопросу о том, кто сумеет дешевле и надежнее выпускать интеллект как сервис.

Коротко:

  • На GTC 2026 NVIDIA сместила фокус с отдельных GPU на фабрики инференса, где продуктом становятся токены и действия агентов.
  • Рынок двигается от SaaS к Agent-as-a-Service; мерило — стоимость полезного токена. Расходы на такие мощности к 2027 году могут приблизиться к 1 трлн долларов.
  • Архитектура Vera Rubin переупаковывает весь стек под инференс — стойка целиком, с акцентом на модульность под нагрузки.
ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…