Google lanzó Gemma 4 en Hugging Face: modelos multimodales para ejecución local

Q: ¿Cuál es la fuente?

Publicado originalmente en Hugging Face Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2 may 2026. Tiempo de lectura: 3 min.

Google DeepMind llevó Gemma 4 a Hugging Face y apostó por la ejecución local. La línea incluye cuatro modelos multimodales: desde E2B y E4B para dispositivos…

Redacción de Hamidun News

Monitoreo de AI · Hugging Face Blog

2 may 2026· 3 min

Procesado por IA desde Hugging Face Blog; editado por Hamidun News

Google lanzó Gemma 4 en Hugging Face: modelos multimodales para ejecución local — Fuente: Hugging Face Blog. Collage: Hamidun News.

◐ Escuchar artículo

Google DeepMind ha lanzado la familia Gemma 4 en Hugging Face, enfatizando no el tamaño máximo del modelo, sino una combinación de poder, multimodalidad y la capacidad de ejecutar el modelo localmente. La línea incluye cuatro versiones: desde los compactos E2B y E4B para escenarios edge hasta 26B A4B y 31B para tareas más pesadas en estaciones de trabajo y hardware de servidor.

Qué versiones se lanzaron

El lanzamiento se realizó el 2 de abril de 2026. Hugging Face reporta que Gemma 4 está disponible tanto en variantes base como en instrucción, con toda la línea distribuida bajo la licencia Apache 2.0. Los dos modelos más pequeños recibieron una ventana de contexto de 128K, los dos más grandes — 256K. Google y Hugging Face presentan la serie no solo como modelos de chat, sino como base para escenarios agenticos, asistentes locales y aplicaciones multimodales, donde trabajar con texto, imágenes, vídeo y, en algunas configuraciones, audio es importante.

Gemma 4 E2B — 2.3B efectivo, aproximadamente 5.1B con embeddings, contexto de 128K
Gemma 4 E4B — 4.5B efectivo, aproximadamente 8B con embeddings, contexto de 128K
Gemma 4 26B A4B — modelo MoE con 26B de parámetros totales y aproximadamente 4B activos, contexto de 256K
Gemma 4 31B — modelo denso de 31B con contexto de 256K

Según Google, el modelo 31B ocupaba el tercer lugar entre modelos abiertos en la clasificación de texto de Arena AI en el momento del anuncio, mientras que 26B A4B ocupaba el sexto. Para una serie diseñada también para implementación local, esta es una declaración fuerte: Google intenta competir no solo en la nube con Gemini, sino también en el segmento de modelos abiertos, donde el equilibrio de calidad, velocidad, memoria, estabilidad en producción y flexibilidad de implementación importan.

Qué puede hacer Gemma 4

El blog de Hugging Face enfatiza pruebas multimodales prácticas. Los modelos pueden trabajar con OCR, reconocimiento de voz, detección de objetos e identificación de coordenadas en imágenes. En un ejemplo, Gemma 4 encuentra un elemento de interfaz en una captura de pantalla a partir de una consulta en texto plano e inmediatamente devuelve cuadros delimitadores en JSON sin delimitadores de formato adicionales. Para desarrolladores, esto es útil: menos código auxiliar alrededor del modelo, ensamblaje más simple de agentes visuales y asistentes de interfaz.

Aquí no termina la lista. Gemma 4 se demuestra en tareas de restauración de página HTML a partir de imágenes, en llamadas de función solo texto y multimodal, así como en corrección y finalización de código. Los modelos más jóvenes E2B y E4B pueden aceptar audio y, en tareas de vídeo, pueden procesar vídeos junto con pistas de audio. Los más antiguos 26B A4B y 31B entienden vídeo sin audio. Según las pruebas de Hugging Face, incluso sin entrenamiento posterior específico en vídeo, los modelos manejan con confianza la descripción de lo que está sucediendo y la descripción de imágenes complejas.

Por qué esto es práctico

Técnicamente, Gemma 4 está construida alrededor de varias soluciones que deben mejorar el rendimiento en contexto largo y reducir el costo de inferencia. Entre ellas están la alternancia entre atención de ventana deslizante local y atención de contexto completo global, configuraciones de RoPE separadas para diferentes capas, Embeddings por Capa y caché KV compartido. La última técnica permite reutilizar estados de clave-valor entre capas, ahorrando memoria y cálculo, lo cual es especialmente importante para generación larga y ejecución en un dispositivo.

Otra ventaja práctica es la amplitud del ecosistema ya en el día del lanzamiento. Hugging Face anuncia soporte para transformers, llama.cpp, MLX, transformers.

js con WebGPU y Mistral.rs, mientras que TRL y Unsloth Studio están disponibles para ajuste fino. Esto significa que Gemma 4 no está bloqueada en una sola pila: el modelo puede probarse rápidamente en un navegador, en una laptop, en Mac, en un agente local o en un pipeline Python familiar.

Para el mercado de modelos abiertos, esto ya no es un bonificación agradable sino una condición necesaria para implementación real.

Qué significa esto

Gemma 4 demuestra hacia dónde se dirige el mercado de IA abierto en 2026: menos carrera por recuento bruto de parámetros y más enfoque en multimodalidad, contexto largo e implementación local. Si la calidad se confirma en pruebas independientes y casos de producción, los desarrolladores tendrán otro modelo fundamental sólido para agentes, productos offline y escenarios empresariales donde la privacidad de datos, la latencia y el costo de inferencia son más importantes que la dependencia de APIs en la nube.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita