MarkTechPost→ original

TII lanza Falcon Perception — modelo 0,6B para segmentación y búsqueda de objetos por texto

TII lanzó Falcon Perception — un modelo con 0,6 mil millones de parámetros que entiende consultas de texto para imágenes y genera máscaras precisas de…

Procesado por IA desde MarkTechPost; editado por Hamidun News
TII lanza Falcon Perception — modelo 0,6B para segmentación y búsqueda de objetos por texto
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

El 1 de abril de 2026, TII presentó Falcon Perception — un modelo multimodal compacto con 0,6 mil millones de parámetros que puede encontrar y segmentar objetos en una imagen basándose en consultas de texto simple sin una lista de clases fija. Para el mercado, esta es una señal importante: las tareas de comprensión visual que se han resuelto durante mucho tiempo a través de complejos conductos de módulos separados ahora pueden abordarse con una única arquitectura unificada, con una licencia abierta y sin un tamaño de modelo gigantesco.

La mayoría de los sistemas modernos de visión por computadora aún se construyen sobre un esquema modular: un codificador extrae características visuales, otro bloque las mezcla con texto, y luego un decodificador separado predice cuadros delimitadores, máscaras o respuestas. Este enfoque funciona, pero se escala mal: cada nuevo tipo de error suele corregirse con un nuevo módulo, y la interacción entre lenguaje e imágenes sigue siendo limitada.

En Falcon Perception, el equipo del Technology Innovation Institute de Abu Dabi apuesta por un enfoque de fusión temprana: la imagen y el texto entran en una secuencia común de tokens ya desde la primera capa del transformador. Arquitectónicamente, el modelo está estructurado como un único Transformer con un esquema de atención híbrida. Los tokens de imagen se ven mutuamente de forma bidireccional y recopilan contexto visual global, mientras que los tokens de texto y auxiliares se decodifican causalmente, basándose en la imagen ya procesada.

Para cada objeto encontrado, el modelo pasa por una corta cadena de pasos: primero determina las coordenadas del centro, luego el tamaño, y luego construye una máscara de segmentación. Esta interfaz permite trabajar con un número variable de objetos — de cero a cientos en una sola imagen — y no convierte la generación de máscaras en un proceso computacionalmente costoso.

Bajo el capó, Falcon Perception tiene una preparación de datos bastante seria. La inicialización se realizó a través de destilación de DINOv3 y SigLIP2 para combinar características visuales locales sólidas y un mejor anclaje lingüístico. Luego el modelo se entrenó en un conjunto de datos de 54 millones de imágenes, 195 millones de expresiones de texto positivas y 488 millones de ejemplos negativos duros. Para anotación automática y selección, se utilizó un conjunto de SAM 3, Qwen3-VL-30B y Moondream3, y los casos cuestionables se enviaron a revisión manual.

Por separado, TII introdujo PBench — un nuevo benchmark de diagnóstico que desglosa los resultados por niveles de complejidad: desde objetos simples hasta pistas de OCR, relaciones espaciales y escenas densas con cientos de instancias.

Por métricas, el lanzamiento se ve convincente. En SA-Co, uno de los benchmarks de segmentación abierta, Falcon Perception logró 68,0 Macro-F1 frente a 62,3 de SAM 3. La ganancia es particularmente notable donde el simple "reconocimiento de objetos" no es suficiente: en atributos y subtipos, en consultas con texto dentro del marco y en formulaciones espaciales como "auto a la izquierda" o "tercera ventana desde la izquierda".

En PBench, la brecha en objetos simples es pequeña, pero en tareas espaciales alcanza 21,9 puntos, en consultas guiadas por OCR — 13,4, en tareas relacionales — 15,8. El punto débil por ahora es la calibración de presencia: por MCC, el modelo se queda atrás de SAM 3 con una puntuación de 0,64 frente a 0,82, lo que significa que en escenarios negativos complejos aún comete más errores con la respuesta "objeto ausente".

El modelo también tiene un lado pragmático. Falcon Perception se lanza bajo Apache 2.0, disponible en Hugging Face y GitHub, y diseñado no solo para experimentos de laboratorio sino también para implementación práctica. La inferencia utiliza una pila basada en PyTorch FlexAttention y caché KV paginado; según el equipo, en H100 las latencias típicas son alrededor de 100 ms para prefill, alrededor de 200 ms para muestreo de características y aproximadamente 50 ms para decodificación de múltiples instancias.

TII también demostró que la misma receta de fusión temprana se transfiere a OCR: el modelo acompañante Falcon OCR con 0,3 mil millones de parámetros obtuvo 80,3 en olmOCR y 88,64 en OmniDocBench.

La conclusión principal aquí no es que TII lanzara otro modelo compacto de visión-lenguaje. Es mucho más importante que Falcon Perception demuestre la viabilidad de un enfoque más simple y unificado para la comprensión visual: una arquitectura, una pila común y menos soluciones alternativas entre lenguaje y visión. Si el equipo mejora la calibración de presencia y reduce el número de falsos positivos en escenarios negativos difíciles, Falcon tiene la oportunidad de convertirse en una base sólida para asistentes, robótica, búsqueda visual e interfaces donde una imagen debe entenderse a partir de texto humano en lugar de una lista de clases predeterminada.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…