Zyphra a lancé Zamba2-VL : modèles visuels avec une réponse 10 fois plus rapide
Zyphra a lancé une famille de modèles multimodaux ouverts Zamba2-VL — trois variantes : 1,2B, 2,7B et 7B paramètres, licence Apache 2.0. Architecture hybride…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Zyphra a lancé une famille ouverte de modèles vision-langage, Zamba2-VL, en variantes de 1.2B, 2.7B et 7B paramètres. Au cœur se trouve une architecture hybride qui combine des blocs Mamba2 et Transformer. Le résultat clé : le temps jusqu'au premier token est réduit d'environ 10 fois par rapport aux modèles VLM Transformer purs de taille comparable.
Trois tailles, une licence
La famille comprend trois variantes : 1.2B, 2.7B et 7B paramètres. Les trois sont lancées sous la licence Apache 2.0, ce qui signifie une utilisation commerciale libre sans restrictions sur l'intégration, la modification et la redistribution — une liberté totale pour les projets commerciaux et de recherche.
Zamba2-VL sont des modèles vision-langage à part entière. Ils traitent conjointement des images et du texte, ouvrant des applications sur un large éventail de tâches : description d'images et de photographies, réponse à des questions visuelles, analyse de documents avec illustrations, analyse de captures d'écran d'interfaces utilisateur, travail avec des images médicales.
Contrairement aux LLMs de texte pur, les VLM peuvent répondre à des questions sur ce qui est représenté dans une image et combiner le contexte visuel et textuel dans une seule requête.
En termes de qualité sur les benchmarks standard, Zamba2-VL se maintient au même niveau que les VLMs Transformer purs de taille comparable. La transition vers une architecture hybride ne nécessite pas de sacrifier la précision pour la vitesse — les deux métriques restent compétitives.
Comment fonctionne l'épine dorsale hybride
La plupart des modèles modernes de langage et multimodaux sont construits sur une architecture Transformer pure. En elle, chaque token nouvellement généré "examine" l'ensemble de la séquence précédente via un mécanisme d'attention (attention). C'est une approche puissante, mais coûteuse en calcul : avec des contextes longs, le volume de travail croît quadratiquement. C'est là que le goulot d'étranglement de performance apparaît — y compris un temps élevé jusqu'au premier token.
Mamba2 est une architecture basée sur des modèles d'espace d'état (SSM). Au lieu d'examiner exhaustivement l'historique, elle compresse le contexte précédent en un "état" compact qui se met à jour linéairement au fur et à mesure que de nouveaux tokens sont traités.
Zamba2-VL alterne les blocs Mamba2 avec les couches Transformer régulières : les blocs SSM fournissent la vitesse et l'efficacité, les couches Transformer ajoutent de la flexibilité pour traiter les dépendances complexes.
Le résultat :
- Le temps jusqu'au premier token est réduit d'environ 10 fois
- La qualité reste compétitive avec les VLMs Transformer purs
- Empreinte computationnelle plus petite lors de l'inférence
- Meilleure mise à l'échelle sur les contextes longs
- Capacité à déployer sur du matériel moins puissant sans perdre de réactivité
Pourquoi TTFT est important
Le temps jusqu'au premier token (time-to-first-token, TTFT) est l'intervalle entre l'envoi d'une demande et l'apparition du premier caractère de la réponse. C'est ce qui détermine la sensation de "vivacité" dans les systèmes interactifs : chatbots, assistants vocaux, services d'API, où la vitesse de réaction est importante. Pendant que le modèle réfléchit — l'utilisateur attend. Un TTFT élevé donne l'impression d'un "gel", même si la réponse finale est de haute qualité.
Une réduction de 10 fois du TTFT est un gain pratique significatif. Avec les mêmes ressources matérielles, cela signifie soit un service significativement plus réactif, soit la capacité à traiter beaucoup plus de requêtes simultanément. Pour les entreprises qui paient le temps GPU, les deux options impactent directement l'économie unitaire du produit.
Les modèles ouverts avec une telle vitesse de réponse permettent de
construire des produits où la latence de réponse rendait auparavant une classe entière de solutions non viable.
Ce que cela signifie
Les architectures hybrides SSM + Transformer continuent de passer de articles académiques à des produits pratiques. Le lancement de Zamba2-VL en tant que famille de trois modèles — du compact 1.2B à la taille complète 7B — couvre différents scénarios de déploiement : des appareils aux ressources limitées aux fermes de serveurs. La licence ouverte sous Apache 2.0 abaisse la barrière d'entrée : les équipes peuvent utiliser un modèle multimodal rapide prêt à l'emploi sans dépendre des API commerciales — avec tous leurs prix, limites de débit et risque de changements soudains dans les conditions.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.