Zyphra lanzó Zamba2-VL: modelos visuales con respuesta 10 veces más rápida

Q: ¿Cuál es la fuente?

Publicado originalmente en MarkTechPost. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

15 jun 2026. Tiempo de lectura: 3 min.

Zyphra lanzó una familia de modelos multimodales abiertos Zamba2-VL — tres variantes: 1,2B, 2,7B y 7B parámetros, licencia Apache 2.0. Arquitectura híbrida…

Redacción de Hamidun News

Monitoreo de AI · MarkTechPost

15 jun 2026· 2 min

Procesado por IA desde MarkTechPost; editado por Hamidun News

Zyphra lanzó Zamba2-VL: modelos visuales con respuesta 10 veces más rápida — Fuente: MarkTechPost. Collage: Hamidun News.

◐ Escuchar artículo

Zyphra ha lanzado una familia abierta de modelos visión-lenguaje, Zamba2-VL, en variantes de 1.2B, 2.7B y 7B parámetros. En su núcleo hay una arquitectura híbrida que combina bloques Mamba2 y Transformer. El resultado clave: el tiempo hasta el primer token se reduce aproximadamente 10 veces en comparación con modelos VLM Transformer puros de tamaño comparable.

Tres tamaños, una licencia

La familia incluye tres variantes: 1.2B, 2.7B y 7B parámetros. Los tres se lanzan bajo la licencia Apache 2.0, lo que significa uso comercial gratuito sin restricciones en incrustación, modificación y redistribución — libertad total para proyectos comerciales y de investigación.

Zamba2-VL son modelos visión-lenguaje completos. Procesan conjuntamente imágenes y texto, abriendo aplicaciones en un amplio espectro de tareas: descripción de imágenes y fotografías, respuesta visual a preguntas, análisis de documentos con ilustraciones, análisis de capturas de pantalla de interfaces de usuario, trabajo con imágenes médicas.

A diferencia de LLMs de texto puro, los VLM pueden responder preguntas sobre lo que se representa en una imagen y combinar contexto visual y textual en una única solicitud.

En términos de calidad en benchmarks estándar, Zamba2-VL se mantiene a la par con VLMs Transformer puros de tamaño comparable. La transición a arquitectura híbrida no requiere sacrificar precisión por velocidad — ambas métricas se mantienen competitivas.

Cómo funciona la columna vertebral híbrida

La mayoría de los modelos modernos de lenguaje y multimodales se construyen en arquitectura Transformer pura. En ella, cada token recién generado "revisa" toda la secuencia anterior a través de un mecanismo de atención (attention). Este es un enfoque poderoso, pero computacionalmente costoso: con contextos largos, el volumen de trabajo crece cuadráticamente. Aquí es donde aparece el cuello de botella de rendimiento — incluyendo alto tiempo hasta el primer token.

Mamba2 es una arquitectura basada en modelos de espacio de estado (SSM). En lugar de revisar exhaustivamente el historial, comprime el contexto anterior en un "estado" compacto que se actualiza linealmente a medida que se procesan nuevos tokens.

Zamba2-VL alterna bloques Mamba2 con capas Transformer regulares: los bloques SSM proporcionan velocidad y eficiencia, las capas Transformer añaden flexibilidad al tratar con dependencias complejas.

El resultado:

Tiempo hasta el primer token se reduce aproximadamente 10 veces
La calidad se mantiene competitiva con VLMs Transformer puros
Huella computacional menor durante la inferencia
Mejor escalabilidad en contextos largos
Capacidad de desplegar en hardware menos potente sin perder capacidad de respuesta

Por qué TTFT importa

Tiempo hasta el primer token (time-to-first-token, TTFT) es el intervalo entre enviar una solicitud y la aparición del primer carácter de la respuesta. Es lo que determina la sensación de "vivacidad" en sistemas interactivos: chatbots, asistentes de voz, servicios de API, donde la velocidad de respuesta es importante. Mientras el modelo piensa — el usuario espera. TTFT alto se siente como "congelamiento", incluso si la respuesta final es de alta calidad.

Una reducción de 10 veces en TTFT es una ganancia práctica significativa. Con los mismos recursos de hardware, esto significa o un servicio significativamente más responsivo o la capacidad de manejar sustancialmente más solicitudes simultáneamente. Para empresas que pagan por tiempo de GPU, ambas opciones impactan directamente la economía unitaria del producto.

Los modelos abiertos con tal velocidad de respuesta permiten construir

productos donde la latencia de respuesta anteriormente hacía inviable una clase completa de soluciones.

Qué significa

Las arquitecturas híbridas SSM + Transformer continúan moviéndose de artículos académicos a productos prácticos. El lanzamiento de Zamba2-VL como familia de tres modelos — desde el compacto 1.2B hasta el tamaño completo 7B — cubre diferentes escenarios de despliegue: desde dispositivos con recursos limitados hasta granjas de servidores. La licencia abierta bajo Apache 2.0 reduce la barrera de entrada: los equipos pueden tomar un modelo multimodal rápido listo sin dependencia de APIs comerciales — con todos sus precios, límites de velocidad y riesgo de cambios repentinos en las condiciones.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita