TII lança Falcon Perception — modelo 0,6B para segmentação e busca de objetos por texto
TII lançou Falcon Perception — um modelo com 0,6 bilhão de parâmetros que compreende consultas de texto para imagens e fornece máscaras de objetos precisas…
Processado por IA de MarkTechPost; editado por Hamidun News
Em 1º de abril de 2026, a TII apresentou Falcon Perception — um modelo multimodal compacto com 0,6 bilhão de parâmetros que pode encontrar e segmentar objetos em uma imagem com base em consultas em texto simples, sem uma lista de classes fixa. Para o mercado, este é um sinal importante: tarefas de compreensão visual que foram resolvidas por muito tempo através de pipelines complexos de módulos separados agora podem ser abordadas com uma única arquitetura unificada, com uma licença aberta e sem um tamanho gigantesco do modelo.
A maioria dos sistemas modernos de visão computacional ainda é construída em um esquema modular: um codificador extrai características visuais, outro bloco as mistura com texto, e então um decodificador separado prevê caixas delimitadoras, máscaras ou respostas. Esta abordagem funciona, mas escala mal: cada novo tipo de erro é geralmente corrigido com um novo módulo, e a interação entre linguagem e imagens permanece limitada.
No Falcon Perception, a equipe do Technology Innovation Institute de Abu Dhabi aposta em uma abordagem de fusão antecipada: imagem e texto entram em uma sequência comum de tokens já na primeira camada do transformador. Arquitetonicamente, o modelo é estruturado como um único Transformer com um esquema de atenção híbrido. Os tokens de imagem se veem bidirecionalmente e coletam contexto visual global, enquanto tokens de texto e auxiliares são decodificados causalmente, baseando-se na imagem já processada.
Para cada objeto encontrado, o modelo passa por uma curta sequência de etapas: primeiro determina as coordenadas do centro, depois o tamanho, e então constrói uma máscara de segmentação. Esta interface permite trabalhar com um número variável de objetos — de zero a centenas em uma única imagem — e não transforma a geração de máscaras em um processo computacionalmente caro.
Sob o capô, o Falcon Perception tem uma preparação de dados bastante séria. A inicialização foi feita através de destilação do DINOv3 e SigLIP2 para combinar características visuais locais fortes e melhor fundamentação linguística. Então o modelo foi treinado em um conjunto de dados de 54 milhões de imagens, 195 milhões de expressões de texto positivas e 488 milhões de exemplos negativos difíceis. Para anotação automática e seleção, foi utilizado um ensemble de SAM 3, Qwen3-VL-30B e Moondream3, com casos discutíveis enviados para revisão manual.
Separadamente, a TII introduziu o PBench — um novo benchmark diagnóstico que divide os resultados por níveis de complexidade: desde objetos simples até dicas de OCR, relacionamentos espaciais e cenas densas com centenas de instâncias.
Por métricas, o lançamento parece convincente. No SA-Co, um dos benchmarks de segmentação aberta, o Falcon Perception alcançou 68,0 Macro-F1 contra 62,3 do SAM 3. O ganho é particularmente notável onde simples "reconhecimento de objeto" não é suficiente: em atributos e subtipos, em consultas com texto dentro do quadro e em formulações espaciais como "carro à esquerda" ou "terceira janela pela esquerda".
No PBench, a diferença em objetos simples é pequena, mas em tarefas espaciais atinge 21,9 pontos, em consultas guiadas por OCR — 13,4, em tarefas relacionais — 15,8. O ponto fraco por enquanto é a calibração de presença: por MCC, o modelo fica atrás do SAM 3 com uma pontuação de 0,64 versus 0,82, o que significa que em cenários negativos complexos ele ainda comete erros mais frequentemente com a resposta "objeto ausente".
O modelo também tem um lado pragmático. O Falcon Perception é lançado sob Apache 2.0, disponível no Hugging Face e GitHub, e projetado não apenas para experimentos de laboratório, mas também para implantação prática. A inferência usa uma pilha baseada em PyTorch FlexAttention e cache KV paginado; de acordo com a equipe, no H100 as latências típicas são em torno de 100 ms para prefill, em torno de 200 ms para upsampling de características e aproximadamente 50 ms para decodificação de várias instâncias.
A TII também demonstrou que a mesma receita de fusão antecipada se transfere para OCR: o modelo acompanhante Falcon OCR com 0,3 bilhão de parâmetros marcou 80,3 no olmOCR e 88,64 no OmniDocBench.
A principal conclusão aqui não é que a TII lançou mais um modelo compacto de visão-linguagem. É muito mais importante que o Falcon Perception demonstre a viabilidade de uma abordagem mais simples e unificada para a compreensão visual: uma arquitetura, uma pilha comum e menos workarounds entre linguagem e visão. Se a equipe melhorar a calibração de presença e reduzir o número de falsos positivos em cenários negativos difíceis, o Falcon tem a chance de se tornar uma base sólida para assistentes, robótica, busca visual e interfaces onde uma imagem precisa ser entendida a partir de texto humano em vez de uma lista de classes predeterminada.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.