MarkTechPost→ оригинал

TII تطلق Falcon Perception — نموذج 0.6B لتجزئة وبحث الكائنات حسب النص

أطلقت TII Falcon Perception — نموذج بـ 0.6 مليار معاملة يفهم استعلامات النص للصور ويوفر أقنعة كائنات دقيقة. بدلاً من معمارية محرر بصري + فك تشفير كلاسيكية، يستخ

TII تطلق Falcon Perception — نموذج 0.6B لتجزئة وبحث الكائنات حسب النص
Источник: MarkTechPost. Коллаж: Hamidun News.

1 апреля 2026 года TII представила Falcon Perception — компактную мультимодальную модель на 0,6 млрд параметров, которая умеет находить и сегментировать объекты на изображении по обычному текстовому запросу без фиксированного списка классов. Для рынка это важный сигнал: задачи визуального понимания, которые долго решались через сложные конвейеры из отдельных блоков, теперь можно закрывать одной общей архитектурой, причем с открытой лицензией и без гигантского размера модели. Большинство современных систем компьютерного зрения до сих пор строятся по модульной схеме: один энкодер извлекает визуальные признаки, другой блок смешивает их с текстом, а затем отдельный декодер предсказывает рамки, маски или ответы.

Такой подход работает, но плохо масштабируется: каждый новый тип ошибки обычно лечится новым модулем, а взаимодействие между языком и изображением остается ограниченным. В Falcon Perception команда Technology Innovation Institute из Абу-Даби делает ставку на early fusion-подход: изображение и текст попадают в общую последовательность токенов уже с первого слоя трансформера. Архитектурно модель устроена как единый Transformer с гибридной схемой внимания.

Токены изображения видят друг друга двунаправленно и собирают глобальный визуальный контекст, а текстовые и служебные токены декодируются каузально, опираясь на уже обработанную картинку. Для каждого найденного объекта модель проходит короткую цепочку шагов: сначала определяет координаты центра, затем размер, а потом строит сегментационную маску. Такой интерфейс позволяет работать с переменным числом объектов — от нуля до сотен на одном изображении — и не превращает генерацию масок в слишком дорогой по вычислениям процесс.

Под капотом у Falcon Perception довольно серьезная подготовка данных. Инициализация делалась через дистилляцию от DINOv3 и SigLIP2, чтобы совместить сильные локальные визуальные признаки и лучшую языковую привязку. Затем модель обучали на наборе из 54 миллионов изображений, 195 миллионов положительных текстовых выражений и 488 миллионов hard negative-примеров.

Для автоматической разметки и отбора использовались ансамбль из SAM 3, Qwen3-VL-30B и Moondream3, а спорные случаи отправлялись на ручную проверку. Отдельно TII представила PBench — новый диагностический бенчмарк, который разносит результаты по уровням сложности: от простых объектов до OCR-подсказок, пространственных отношений и плотных сцен с сотнями экземпляров. По метрикам релиз выглядит убедительно.

На SA-Co, одном из бенчмарков открытой сегментации, Falcon Perception получила 68,0 Macro-F1 против 62,3 у SAM 3. Особенно заметен выигрыш там, где одного «узнавания объекта» мало: в атрибутах и подтипах, в запросах с текстом внутри кадра и в пространственных формулировках вроде «машина слева» или «третье окно слева». На PBench разрыв на простых объектах небольшой, зато на spatial-задачах достигает 21,9 пункта, на OCR-guided запросах — 13,4, на relational-задачах — 15,8.

Слабое место пока — presence calibration: по MCC модель уступает SAM 3 со счетом 0,64 против 0,82, то есть в сложных отрицательных сценариях она все еще чаще ошибается с ответом «объект отсутствует». У модели есть и прагматическая сторона. Falcon Perception выложена под Apache 2.

0, доступна на Hugging Face и GitHub и рассчитана не только на лабораторные эксперименты, но и на прикладной запуск. В инференсе используется стек на базе PyTorch FlexAttention и paged KV cache; по данным команды, на H100 типичные задержки составляют около 100 мс на prefill, около 200 мс на апсемплинг признаков и примерно 50 мс на декодирование нескольких инстансов. TII также показала, что тот же early fusion-рецепт переносится в OCR: сопутствующая модель Falcon OCR на 0,3 млрд параметров набрала 80,3 на olmOCR и 88,64 на OmniDocBench.

Главный вывод здесь не в том, что TII выпустила еще одну компактную vision-language-модель. Куда важнее, что Falcon Perception показывает жизнеспособность более простого и цельного подхода к визуальному пониманию: одна архитектура, один общий стек и меньше костылей между языком и зрением. Если команда подтянет присутствие-калибровку и снизит число ложных срабатываний на hard negative-сценариях, у Falcon есть шанс стать сильной базой для ассистентов, робототехники, визуального поиска и интерфейсов, где картинку нужно понимать по человеческому тексту, а не по заранее заданному списку классов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…