IEEE Spectrum AI→ оригинал

Nvidia unveils Groq 3: company bets on dedicated chips for AI inference

Nvidia has introduced Groq 3, its first chip built specifically for AI inference. It does not compete with Rubin GPU on overall power, but serves a different pu

Nvidia unveils Groq 3: company bets on dedicated chips for AI inference
Источник: IEEE Spectrum AI. Коллаж: Hamidun News.

Nvidia показала Groq 3 — первый чип компании, заточенный именно под ИИ-инференс, а не обучение моделей. Это важный сигнал: рынок смещается от гонки за всё более крупными моделями к гонке за тем, насколько быстро и дёшево эти модели отвечают пользователям.

Почему

Nvidia меняет курс На конференции GTC глава Nvidia объявил не только линейку Vera Rubin, но и отдельный класс процессоров для вывода моделей. Groq 3 LPU построен на лицензированной технологии стартапа Groq, с которым Nvidia заключила сделку в конце прошлого года. Сам факт, что от лицензирования до анонса продукта прошло около двух с половиной месяцев, показывает, насколько быстро растёт спрос на инференс в дата-центрах.

«Наконец ИИ способен делать полезную работу, и точка перегиба инференса уже наступила».

Обучение и инференс решают разные задачи, поэтому им нужны разные железки. Во время обучения система неделями гоняет огромные массивы данных и обновляет веса модели. Во время инференса всё происходит в момент запроса пользователя, а для рассуждающих моделей одна сессия может включать множество внутренних проходов до того, как человек увидит ответ. Здесь критичны не максимальные FLOPS, а задержка, стабильный поток данных и предсказуемое время генерации токенов.

Как устроен Groq 3 Подход Groq отличается от привычной GPU-схемы.

Вместо упора на отдельную высокоскоростную память HBM рядом с графическим процессором, чип использует SRAM, встроенную прямо в вычислительный блок. Это упрощает движение данных: они проходят через процессор линейно, без лишних походов наружу и обратно. За счёт этого архитектура жертвует универсальностью, но выигрывает там, где нужен максимально быстрый отклик.

Для инференса, где модель генерирует токены последовательно, а не считает всё одним большим пакетом, такой дизайн особенно полезен. Разница заметна и по характеристикам. Rubin GPU остаётся машиной для тяжёлых вычислений и крупных моделей, а Groq 3 сделали под другую цель — минимальную задержку на стадии decode, когда ответ уже начинает собираться по токенам.

По общим вычислениям и объёму памяти LPU заметно скромнее, зато выигрывает по пропускной способности и лучше подходит для финального вывода. Поэтому Nvidia не заменяет GPU новым классом чипа, а дополняет его специализированным ускорителем.

  • У Rubin GPU — 288 ГБ HBM, у Groq 3 — около 500 МБ встроенной SRAM Rubin выдаёт до 50 петафлопс в 4-битных вычислениях, Groq 3 — 1,2 петафлопс в 8-битных По пропускной способности памяти Groq 3 достигает 150 ТБ/с против 22 ТБ/с у Rubin * Фокус Groq 3 — не универсальность, а быстрая генерация токенов с низкой задержкой ## Рынок уходит в инференс Последние пару лет вокруг инференс-чипов шёл настоящий взрыв стартапов. D-Matrix делает ставку на digital in-memory compute, Etched — на ASIC для трансформеров, RainAI — на нейроморфные схемы, EnCharge — на analog in-memory compute, FuriosaAI — на архитектуру под тензорные операции. Nvidia своим анонсом не просто добавила ещё один продукт, а фактически подтвердила: ниша оказалась слишком большой, чтобы игнорировать её внутри GPU-империи. При этом ставка делается не только на отдельный чип, но и на разбиение инференса на части. AWS недавно показала систему с Trainium и Cerebras CS-3, где prefill и decode выполняются разными типами железа. Nvidia идёт туда же: в новый модуль Groq 3 LPX войдут восемь LPU и система Vera Rubin. Prefill и более тяжёлая часть decode останутся на Rubin, а финальная стадия вывода — на Groq 3. Такой гибрид позволяет использовать сильные стороны каждого процессора вместо компромисса.

Что это значит

Главная новость не в том, что Nvidia выпустила ещё один ускоритель, а в том, что крупнейший игрок рынка публично признал инференс отдельным классом вычислений. Для AI-продуктов это хорошая новость: если такие архитектуры действительно масштабируются в проде, ответы моделей станут быстрее, а экономика массового использования — предсказуемее. Следующий этап конкуренции в ИИ будет идти не только за качество моделей, но и за стоимость миллиона полезных ответов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…