IEEE Spectrum AI→ оригинал

Nvidia présente Groq 3 : l’entreprise mise sur des puces dédiées à l’inférence AI

Nvidia a dévoilé Groq 3, sa première puce conçue spécifiquement pour l’inférence AI. Elle ne concurrence pas Rubin GPU sur la puissance globale, mais répond à u

Nvidia présente Groq 3 : l’entreprise mise sur des puces dédiées à l’inférence AI
Источник: IEEE Spectrum AI. Коллаж: Hamidun News.

Nvidia показала Groq 3 — первый чип компании, заточенный именно под ИИ-инференс, а не обучение моделей. Это важный сигнал: рынок смещается от гонки за всё более крупными моделями к гонке за тем, насколько быстро и дёшево эти модели отвечают пользователям.

Почему

Nvidia меняет курс На конференции GTC глава Nvidia объявил не только линейку Vera Rubin, но и отдельный класс процессоров для вывода моделей. Groq 3 LPU построен на лицензированной технологии стартапа Groq, с которым Nvidia заключила сделку в конце прошлого года. Сам факт, что от лицензирования до анонса продукта прошло около двух с половиной месяцев, показывает, насколько быстро растёт спрос на инференс в дата-центрах.

«Наконец ИИ способен делать полезную работу, и точка перегиба инференса уже наступила».

Обучение и инференс решают разные задачи, поэтому им нужны разные железки. Во время обучения система неделями гоняет огромные массивы данных и обновляет веса модели. Во время инференса всё происходит в момент запроса пользователя, а для рассуждающих моделей одна сессия может включать множество внутренних проходов до того, как человек увидит ответ. Здесь критичны не максимальные FLOPS, а задержка, стабильный поток данных и предсказуемое время генерации токенов.

Как устроен Groq 3 Подход Groq отличается от привычной GPU-схемы.

Вместо упора на отдельную высокоскоростную память HBM рядом с графическим процессором, чип использует SRAM, встроенную прямо в вычислительный блок. Это упрощает движение данных: они проходят через процессор линейно, без лишних походов наружу и обратно. За счёт этого архитектура жертвует универсальностью, но выигрывает там, где нужен максимально быстрый отклик.

Для инференса, где модель генерирует токены последовательно, а не считает всё одним большим пакетом, такой дизайн особенно полезен. Разница заметна и по характеристикам. Rubin GPU остаётся машиной для тяжёлых вычислений и крупных моделей, а Groq 3 сделали под другую цель — минимальную задержку на стадии decode, когда ответ уже начинает собираться по токенам.

По общим вычислениям и объёму памяти LPU заметно скромнее, зато выигрывает по пропускной способности и лучше подходит для финального вывода. Поэтому Nvidia не заменяет GPU новым классом чипа, а дополняет его специализированным ускорителем.

  • У Rubin GPU — 288 ГБ HBM, у Groq 3 — около 500 МБ встроенной SRAM Rubin выдаёт до 50 петафлопс в 4-битных вычислениях, Groq 3 — 1,2 петафлопс в 8-битных По пропускной способности памяти Groq 3 достигает 150 ТБ/с против 22 ТБ/с у Rubin * Фокус Groq 3 — не универсальность, а быстрая генерация токенов с низкой задержкой ## Рынок уходит в инференс Последние пару лет вокруг инференс-чипов шёл настоящий взрыв стартапов. D-Matrix делает ставку на digital in-memory compute, Etched — на ASIC для трансформеров, RainAI — на нейроморфные схемы, EnCharge — на analog in-memory compute, FuriosaAI — на архитектуру под тензорные операции. Nvidia своим анонсом не просто добавила ещё один продукт, а фактически подтвердила: ниша оказалась слишком большой, чтобы игнорировать её внутри GPU-империи. При этом ставка делается не только на отдельный чип, но и на разбиение инференса на части. AWS недавно показала систему с Trainium и Cerebras CS-3, где prefill и decode выполняются разными типами железа. Nvidia идёт туда же: в новый модуль Groq 3 LPX войдут восемь LPU и система Vera Rubin. Prefill и более тяжёлая часть decode останутся на Rubin, а финальная стадия вывода — на Groq 3. Такой гибрид позволяет использовать сильные стороны каждого процессора вместо компромисса.

Что это значит

Главная новость не в том, что Nvidia выпустила ещё один ускоритель, а в том, что крупнейший игрок рынка публично признал инференс отдельным классом вычислений. Для AI-продуктов это хорошая новость: если такие архитектуры действительно масштабируются в проде, ответы моделей станут быстрее, а экономика массового использования — предсказуемее. Следующий этап конкуренции в ИИ будет идти не только за качество моделей, но и за стоимость миллиона полезных ответов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…