MarkTechPost→ original

Meta apresentou Sapiens2 — um modelo unificado de visão computacional para pose, segmentação e 3D

Meta lançou Sapiens2 — uma nova família de modelos de visão de alta resolução para tarefas relacionadas a humanos. Uma única arquitetura cobre estimativa de…

Processado por IA de MarkTechPost; editado por Hamidun News
Meta apresentou Sapiens2 — um modelo unificado de visão computacional para pose, segmentação e 3D
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A Meta Reality Labs lançou a Sapiens2 — a próxima geração de modelos de visão centrados no humano, que tenta substituir um conjunto fragmentado de redes especializadas por uma única fundação unificada. A empresa reuniu em uma única linha tarefas que normalmente existem separadamente: estimativa de pose humana, segmentação de partes do corpo, reconstrução de normais de superfície, pointmap para geometria 3D e estimativa de albedo. Para o mercado, este é um sinal importante: a Meta continua apostando não apenas em IA generativa, mas também em visão computacional prática, que é necessária para dispositivos AR, avatares digitais, prova virtual, captura de movimento e análise de vídeo.

A ideia principal por trás da Sapiens2 é que uma única arquitetura base pode trabalhar em múltiplos níveis de compreensão da presença humana em um quadro. O sistema não requer mais uma rede separada para o esqueleto, outra para marcação corporal e uma terceira para geometria de superfície. A Meta afirma que uma única backbone, após fine-tuning, cobre todos esses cenários.

Em termos práticos, isso simplifica o pipeline de produção: menos componentes, menos dessincronização entre modelos e custos de manutenção mais baixos. Nos checkpoints publicados, há, em particular, um modelo para estimativa de pose top-down em 308 pontos-chave, incluindo pontos detalhados do rosto, mãos e pés, bem como segmentação em 29 classes de partes do corpo. A atualização principal não está apenas no conjunto de tarefas, mas também em como o modelo foi treinado.

A Sapiens2 foi pré-treinada em um conjunto de dados curado de 1 bilhão de imagens de alta qualidade de pessoas. No pré-treinamento, a Meta combinou reconstrução de imagem mascarada com objetivo contrastivo auto-destilado, para que o modelo mantivesse simultaneamente detalhes de baixo nível para predição densa e semântica de alto nível para cenários zero-shot e few-label. A arquitetura também empregou técnicas de modelos frontier mais recentes para sustentar ciclos de treinamento mais longos sem perda de estabilidade.

A linha escala de 0,4 a 5 bilhões de parâmetros, funciona em resolução nativa 1K e variantes hierárquicas suportam 4K e usam atenção em janela para contexto espacial mais longo. Comparado à primeira geração da Sapiens, a Meta reclama uma melhoria notável em quase todas as métricas-chave. Na tarefa de estimativa de pose, a nova versão adiciona 4 pontos de mAP, na segmentação de partes do corpo — 24,3 pontos de mIoU, e na avaliação de normais de superfície reduz o erro angular em 45,6%.

Separadamente importante é que a Sapiens2 vai além das tarefas típicas do primeiro lançamento. Agora a família pode construir pointmaps, ou seja, prever coordenadas 3D no sistema de câmera para cada pixel, e trabalhar com albedo — a cor base da superfície sem influência da iluminação. Para avatares, AR e prova virtual, essas representações são particularmente úteis: elas ajudam a reconstruir com mais precisão a forma humana, transferir iluminação e construir cenas 3D mais plausíveis a partir de uma fotografia comum.

O valor prático do lançamento é que a Meta não se limitou a uma publicação de pesquisa. A empresa já postou a família Sapiens2 no Hugging Face e o código no GitHub, com variantes individuais para pose, segmentação, normais e pointmap disponíveis na coleção. Isso reduz a barreira de entrada para equipes que constroem produtos em torno de visão computacional para humanos: desde aplicativos de fitness e sistemas de análise de vídeo até interfaces XR e personagens virtuais.

Ao mesmo tempo, é importante lembrar que a Sapiens2 não é um modelo universal para qualquer visão computacional, mas sim uma stack forte para imagens centradas no humano. Ou seja, sua principal zona de força são quadros onde o humano, sua pose, superfície, roupa e geometria corporal permanecem o objeto central. O que isso significa na prática: a Meta está dando outro passo em direção a um backbone visual unificado para tudo relacionado ao humano no quadro.

Se os resultados afirmados forem confirmados em cenários reais de produção, a empresa terá uma base sólida para seus próprios produtos XR e simultaneamente estabelecerá um novo padrão para pesquisa aberta em visão centrada no humano. Para o mercado, este é um bom exemplo de como os modelos de fundação estão começando a trazer benefícios não apenas em texto e geração, mas também em tarefas precisas e de engenharia da visão computacional.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…