Nvidia presenta Groq 3: la compañía apuesta por chips dedicados para la inferencia de AI
Nvidia presentó Groq 3, su primer chip creado específicamente para la inferencia de AI. No compite con Rubin GPU en potencia general, sino que cumple otro…
Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
Nvidia presentó Groq 3 — el primer chip de la empresa diseñado específicamente para inferencia de IA en lugar de entrenamiento de modelos. Esta es una señal importante: el mercado se está desplazando de una carrera por modelos cada vez más grandes a una carrera de cuán rápido y barato estos modelos pueden responder a los usuarios.
Por qué Nvidia cambia de rumbo
En la conferencia GTC, el CEO de Nvidia anunció no solo la línea Vera Rubin, sino también una clase separada de procesadores para inferencia de modelos. El Groq 3 LPU se construye con tecnología bajo licencia de la startup Groq, de la cual Nvidia obtuvo una licencia a finales del año pasado. El hecho de que aproximadamente dos años y medio hayan pasado desde el licenciamiento hasta el anuncio del producto muestra cómo la demanda de inferencia en centros de datos está creciendo rápidamente.
"Finalmente la IA es capaz de hacer trabajo útil, y el punto de
inflexión de la inferencia ya ha llegado."
El entrenamiento y la inferencia resuelven problemas diferentes, por lo que necesitan hardware diferente. Durante el entrenamiento, el sistema ejecuta enormes cantidades de datos durante semanas y actualiza los pesos del modelo. Durante la inferencia, todo sucede en el momento de una solicitud del usuario, y para modelos de razonamiento, una sesión puede incluir múltiples pasos internos antes de que un humano vea la respuesta. Aquí, los factores críticos no son FLOPS máximos, sino latencia, flujo de datos estable y tiempo de generación de token predecible.
Cómo funciona Groq 3
El enfoque de Groq difiere del esquema familiar de GPU. En lugar de depender de memoria HBM separada de alta velocidad junto al procesador gráfico, el chip utiliza SRAM integrada directamente en el bloque de cálculo. Esto simplifica el movimiento de datos: fluyen a través del procesador linealmente, sin viajes adicionales hacia afuera y de regreso. A través de esto, la arquitectura sacrifica universalidad pero gana donde se necesita una respuesta más rápida. Para inferencia, donde el modelo genera tokens secuencialmente en lugar de calcular todo en un gran lote, tal diseño es particularmente útil.
La diferencia también es notable en las especificaciones. GPU Rubin sigue siendo una máquina para cálculos pesados y modelos grandes, mientras que Groq 3 fue hecha para un objetivo diferente — latencia mínima en la etapa de decode, cuando la respuesta ya se está armando token por token. En cálculos generales y capacidad de memoria, la LPU es notablemente más modesta, pero gana en throughput y es más adecuada para inferencia final. Por lo tanto, Nvidia no reemplaza GPU con una nueva clase de chip, sino que la complementa con un acelerador especializado.
- GPU Rubin tiene 288 GB de HBM, Groq 3 tiene aproximadamente 500 MB de SRAM integrada
- Rubin entrega hasta 50 petaflops en cálculos de 4 bits, Groq 3 — 1,2 petaflops en 8 bits
- En throughput de memoria, Groq 3 alcanza 150 TB/s comparado a 22 TB/s para Rubin
- El enfoque de Groq 3 — no universalidad, sino generación rápida de tokens con baja latencia
El mercado se enfoca en inferencia
En los últimos dos años, ha habido una verdadera explosión de startups alrededor de chips de inferencia. D-Matrix apuesta por computación digital en memoria, Etched — por ASICs para transformers, RainAI — por circuitos neuromórficos, EnCharge — por computación analógica en memoria, FuriosaAI — por arquitectura para operaciones tensoriales. Con su anuncio, Nvidia no simplemente agregó otro producto, sino que efectivamente confirmó: el nicho resultó ser demasiado grande para ignorar dentro del imperio GPU.
Al mismo tiempo, la apuesta se coloca no solo en un chip separado, sino en dividir la inferencia en partes. AWS mostró recientemente un sistema con Trainium y Cerebras CS-3, donde prefill y decode se realizan por diferentes tipos de hardware. Nvidia va en la misma dirección: el nuevo módulo Groq 3 LPX incluirá ocho LPUs y el sistema Vera Rubin.
Prefill y la parte más pesada de decode permanecerán en Rubin, mientras que la etapa final de inferencia — en Groq 3. Tal híbrido permite usar las fortalezas de cada procesador en lugar de un compromiso.
Qué significa esto
La noticia principal no es que Nvidia lanzó otro acelerador, sino que el jugador más grande del mercado reconoció públicamente la inferencia como una clase separada de computación. Para productos de IA, esto es buena noticia: si tales arquitecturas realmente escalan en producción, las respuestas de los modelos serán más rápidas y la economía del uso masivo — más predecible. El siguiente stage de competencia en IA será no solo por la calidad de los modelos, sino por el costo de un millón de respuestas útiles.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.