Meta apresentou Sapiens2 — um modelo unificado de visão computacional para pose, segmentação e 3D
Meta lançou Sapiens2 — uma nova família de modelos de visão de alta resolução para tarefas relacionadas a humanos. Uma única arquitetura cobre estimativa de…
Processado por IA de MarkTechPost; editado por Hamidun News
A Meta Reality Labs lançou a Sapiens2 — a próxima geração de modelos de visão centrados no humano, que tenta substituir um conjunto fragmentado de redes especializadas por uma única fundação unificada. A empresa reuniu em uma única linha tarefas que normalmente existem separadamente: estimativa de pose humana, segmentação de partes do corpo, reconstrução de normais de superfície, pointmap para geometria 3D e estimativa de albedo. Para o mercado, este é um sinal importante: a Meta continua apostando não apenas em IA generativa, mas também em visão computacional prática, que é necessária para dispositivos AR, avatares digitais, prova virtual, captura de movimento e análise de vídeo.
A ideia principal por trás da Sapiens2 é que uma única arquitetura base pode trabalhar em múltiplos níveis de compreensão da presença humana em um quadro. O sistema não requer mais uma rede separada para o esqueleto, outra para marcação corporal e uma terceira para geometria de superfície. A Meta afirma que uma única backbone, após fine-tuning, cobre todos esses cenários.
Em termos práticos, isso simplifica o pipeline de produção: menos componentes, menos dessincronização entre modelos e custos de manutenção mais baixos. Nos checkpoints publicados, há, em particular, um modelo para estimativa de pose top-down em 308 pontos-chave, incluindo pontos detalhados do rosto, mãos e pés, bem como segmentação em 29 classes de partes do corpo. A atualização principal não está apenas no conjunto de tarefas, mas também em como o modelo foi treinado.
A Sapiens2 foi pré-treinada em um conjunto de dados curado de 1 bilhão de imagens de alta qualidade de pessoas. No pré-treinamento, a Meta combinou reconstrução de imagem mascarada com objetivo contrastivo auto-destilado, para que o modelo mantivesse simultaneamente detalhes de baixo nível para predição densa e semântica de alto nível para cenários zero-shot e few-label. A arquitetura também empregou técnicas de modelos frontier mais recentes para sustentar ciclos de treinamento mais longos sem perda de estabilidade.
A linha escala de 0,4 a 5 bilhões de parâmetros, funciona em resolução nativa 1K e variantes hierárquicas suportam 4K e usam atenção em janela para contexto espacial mais longo. Comparado à primeira geração da Sapiens, a Meta reclama uma melhoria notável em quase todas as métricas-chave. Na tarefa de estimativa de pose, a nova versão adiciona 4 pontos de mAP, na segmentação de partes do corpo — 24,3 pontos de mIoU, e na avaliação de normais de superfície reduz o erro angular em 45,6%.
Separadamente importante é que a Sapiens2 vai além das tarefas típicas do primeiro lançamento. Agora a família pode construir pointmaps, ou seja, prever coordenadas 3D no sistema de câmera para cada pixel, e trabalhar com albedo — a cor base da superfície sem influência da iluminação. Para avatares, AR e prova virtual, essas representações são particularmente úteis: elas ajudam a reconstruir com mais precisão a forma humana, transferir iluminação e construir cenas 3D mais plausíveis a partir de uma fotografia comum.
O valor prático do lançamento é que a Meta não se limitou a uma publicação de pesquisa. A empresa já postou a família Sapiens2 no Hugging Face e o código no GitHub, com variantes individuais para pose, segmentação, normais e pointmap disponíveis na coleção. Isso reduz a barreira de entrada para equipes que constroem produtos em torno de visão computacional para humanos: desde aplicativos de fitness e sistemas de análise de vídeo até interfaces XR e personagens virtuais.
Ao mesmo tempo, é importante lembrar que a Sapiens2 não é um modelo universal para qualquer visão computacional, mas sim uma stack forte para imagens centradas no humano. Ou seja, sua principal zona de força são quadros onde o humano, sua pose, superfície, roupa e geometria corporal permanecem o objeto central. O que isso significa na prática: a Meta está dando outro passo em direção a um backbone visual unificado para tudo relacionado ao humano no quadro.
Se os resultados afirmados forem confirmados em cenários reais de produção, a empresa terá uma base sólida para seus próprios produtos XR e simultaneamente estabelecerá um novo padrão para pesquisa aberta em visão centrada no humano. Para o mercado, este é um bom exemplo de como os modelos de fundação estão começando a trazer benefícios não apenas em texto e geração, mas também em tarefas precisas e de engenharia da visão computacional.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.