TII lance Falcon Perception — modèle 0,6B pour la segmentation et la recherche d'objets par texte
TII a lancé Falcon Perception — un modèle avec 0,6 milliard de paramètres qui comprend les requêtes texte sur les images et fournit des masques d'objets…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Le 1er avril 2026, TII a présenté Falcon Perception — un modèle multimodal compact avec 0,6 milliard de paramètres qui peut localiser et segmenter des objets dans une image en fonction de requêtes textuelles simples sans liste de classes fixe. Pour le marché, c'est un signal important : les tâches de compréhension visuelle qui ont longtemps été résolues par des pipelines complexes de modules séparés peuvent désormais être abordées avec une seule architecture unifiée, avec une licence ouverte et sans une taille de modèle géante.
La plupart des systèmes modernes de vision par ordinateur sont toujours construits sur un schéma modulaire : un encodeur extrait les caractéristiques visuelles, un autre bloc les mélange avec du texte, puis un décodeur séparé prédit des boîtes englobantes, des masques ou des réponses. Cette approche fonctionne, mais s'adapte mal : chaque nouveau type d'erreur est généralement corrigé par un nouveau module, et l'interaction entre le langage et les images reste limitée.
Dans Falcon Perception, l'équipe du Technology Innovation Institute d'Abu Dhabi parie sur une approche de fusion précoce : l'image et le texte entrent dans une séquence commune de tokens dès la première couche du transformateur. Architecturalement, le modèle est structuré comme un unique Transformer avec un schéma d'attention hybride. Les tokens d'image se voient mutuellement de manière bidirectionnelle et rassemblent le contexte visuel global, tandis que les tokens de texte et auxiliaires sont décodés de manière causale, en s'appuyant sur l'image déjà traitée.
Pour chaque objet trouvé, le modèle passe par une courte chaîne d'étapes : il détermine d'abord les coordonnées du centre, puis la taille, puis construit un masque de segmentation. Cette interface permet de travailler avec un nombre variable d'objets — de zéro à des centaines dans une seule image — et ne transforme pas la génération de masques en un processus coûteux en calcul.
Sous le capot, Falcon Perception a une préparation de données assez sérieuse. L'initialisation a été effectuée par distillation à partir de DINOv3 et SigLIP2 pour combiner de fortes caractéristiques visuelles locales et une meilleure ancrage linguistique. Le modèle a ensuite été entraîné sur un ensemble de données de 54 millions d'images, 195 millions d'expressions textuelles positives et 488 millions d'exemples négatifs difficiles. Pour l'annotation automatique et la sélection, un ensemble de SAM 3, Qwen3-VL-30B et Moondream3 a été utilisé, les cas litigieux étant envoyés pour révision manuelle.
Séparément, TII a introduit PBench — un nouveau benchmark de diagnostic qui décompose les résultats par niveaux de complexité : des objets simples aux indices OCR, aux relations spatiales et aux scènes denses avec des centaines d'instances.
Par les métriques, la sortie semble convaincante. Sur SA-Co, l'un des benchmarks de segmentation ouverte, Falcon Perception a obtenu 68,0 Macro-F1 contre 62,3 pour SAM 3. Le gain est particulièrement notable là où la simple « reconnaissance d'objets » ne suffit pas : dans les attributs et sous-types, dans les requêtes contenant du texte dans l'image et dans les formulations spatiales comme « voiture à gauche » ou « troisième fenêtre en partant de la gauche ».
Sur PBench, l'écart sur les objets simples est faible, mais sur les tâches spatiales il atteint 21,9 points, sur les requêtes guidées par OCR — 13,4, sur les tâches relationnelles — 15,8. Le point faible pour l'instant est l'étalonnage de présence : par MCC, le modèle accuse un retard par rapport à SAM 3 avec un score de 0,64 contre 0,82, ce qui signifie que dans les scénarios négatifs complexes il commet encore plus souvent l'erreur de répondre « objet absent ».
Le modèle a aussi un côté pragmatique. Falcon Perception est publié sous Apache 2.0, disponible sur Hugging Face et GitHub, et conçu non seulement pour des expériences de laboratoire mais aussi pour un déploiement pratique. L'inférence utilise une pile basée sur PyTorch FlexAttention et cache KV paginé ; selon l'équipe, sur H100 les latences typiques sont autour de 100 ms pour le prefill, autour de 200 ms pour le suréchantillonnage des caractéristiques et environ 50 ms pour le décodage de plusieurs instances.
TII a également montré que la même recette de fusion précoce s'applique à l'OCR : le modèle associé Falcon OCR avec 0,3 milliard de paramètres a obtenu 80,3 sur olmOCR et 88,64 sur OmniDocBench.
La principale conclusion ici n'est pas que TII a publié un autre modèle compact vision-langage. Il est bien plus important que Falcon Perception démontre la viabilité d'une approche plus simple et unifiée de la compréhension visuelle : une architecture, une pile commune et moins de contournements entre le langage et la vision. Si l'équipe améliore l'étalonnage de présence et réduit le nombre de faux positifs dans les scénarios négatifs difficiles, Falcon a la chance de devenir une base solide pour les assistants, la robotique, la recherche visuelle et les interfaces où une image doit être comprise à partir de texte humain plutôt que d'une liste de classes prédéterminée.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.