Nvidia unveils Groq 3: company bets on dedicated chips for AI inference

Q: Источник материала?

Оригинальная публикация на IEEE Spectrum AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-30. Время чтения: 3 мин.

Nvidia has introduced Groq 3, its first chip built specifically for AI inference. It does not compete with Rubin GPU on overall power, but serves a different pu

ЖХ

Редакция Hamidun News

AI‑мониторинг · IEEE Spectrum AI

2026-04-30· 3 мин

Nvidia unveils Groq 3: company bets on dedicated chips for AI inference — Источник: IEEE Spectrum AI. Коллаж: Hamidun News.

Nvidia показала Groq 3 — первый чип компании, заточенный именно под ИИ-инференс, а не обучение моделей. Это важный сигнал: рынок смещается от гонки за всё более крупными моделями к гонке за тем, насколько быстро и дёшево эти модели отвечают пользователям.

Почему

Nvidia меняет курс На конференции GTC глава Nvidia объявил не только линейку Vera Rubin, но и отдельный класс процессоров для вывода моделей. Groq 3 LPU построен на лицензированной технологии стартапа Groq, с которым Nvidia заключила сделку в конце прошлого года. Сам факт, что от лицензирования до анонса продукта прошло около двух с половиной месяцев, показывает, насколько быстро растёт спрос на инференс в дата-центрах.

«Наконец ИИ способен делать полезную работу, и точка перегиба инференса уже наступила».

Обучение и инференс решают разные задачи, поэтому им нужны разные железки. Во время обучения система неделями гоняет огромные массивы данных и обновляет веса модели. Во время инференса всё происходит в момент запроса пользователя, а для рассуждающих моделей одна сессия может включать множество внутренних проходов до того, как человек увидит ответ. Здесь критичны не максимальные FLOPS, а задержка, стабильный поток данных и предсказуемое время генерации токенов.

Как устроен Groq 3 Подход Groq отличается от привычной GPU-схемы.

Вместо упора на отдельную высокоскоростную память HBM рядом с графическим процессором, чип использует SRAM, встроенную прямо в вычислительный блок. Это упрощает движение данных: они проходят через процессор линейно, без лишних походов наружу и обратно. За счёт этого архитектура жертвует универсальностью, но выигрывает там, где нужен максимально быстрый отклик.

Для инференса, где модель генерирует токены последовательно, а не считает всё одним большим пакетом, такой дизайн особенно полезен. Разница заметна и по характеристикам. Rubin GPU остаётся машиной для тяжёлых вычислений и крупных моделей, а Groq 3 сделали под другую цель — минимальную задержку на стадии decode, когда ответ уже начинает собираться по токенам.

По общим вычислениям и объёму памяти LPU заметно скромнее, зато выигрывает по пропускной способности и лучше подходит для финального вывода. Поэтому Nvidia не заменяет GPU новым классом чипа, а дополняет его специализированным ускорителем.

У Rubin GPU — 288 ГБ HBM, у Groq 3 — около 500 МБ встроенной SRAM Rubin выдаёт до 50 петафлопс в 4-битных вычислениях, Groq 3 — 1,2 петафлопс в 8-битных По пропускной способности памяти Groq 3 достигает 150 ТБ/с против 22 ТБ/с у Rubin * Фокус Groq 3 — не универсальность, а быстрая генерация токенов с низкой задержкой ## Рынок уходит в инференс Последние пару лет вокруг инференс-чипов шёл настоящий взрыв стартапов. D-Matrix делает ставку на digital in-memory compute, Etched — на ASIC для трансформеров, RainAI — на нейроморфные схемы, EnCharge — на analog in-memory compute, FuriosaAI — на архитектуру под тензорные операции. Nvidia своим анонсом не просто добавила ещё один продукт, а фактически подтвердила: ниша оказалась слишком большой, чтобы игнорировать её внутри GPU-империи. При этом ставка делается не только на отдельный чип, но и на разбиение инференса на части. AWS недавно показала систему с Trainium и Cerebras CS-3, где prefill и decode выполняются разными типами железа. Nvidia идёт туда же: в новый модуль Groq 3 LPX войдут восемь LPU и система Vera Rubin. Prefill и более тяжёлая часть decode останутся на Rubin, а финальная стадия вывода — на Groq 3. Такой гибрид позволяет использовать сильные стороны каждого процессора вместо компромисса.

Что это значит

Главная новость не в том, что Nvidia выпустила ещё один ускоритель, а в том, что крупнейший игрок рынка публично признал инференс отдельным классом вычислений. Для AI-продуктов это хорошая новость: если такие архитектуры действительно масштабируются в проде, ответы моделей станут быстрее, а экономика массового использования — предсказуемее. Следующий этап конкуренции в ИИ будет идти не только за качество моделей, но и за стоимость миллиона полезных ответов.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com