Meta a présenté Sapiens2 — un modèle unifié de vision par ordinateur pour la pose, la segmentation et la 3D
Meta a lancé Sapiens2 — une nouvelle famille de modèles de vision haute résolution pour les tâches liées aux humains. Une seule architecture couvre…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Meta Reality Labs a lancé Sapiens2 — la prochaine génération de modèles de vision centrés sur l'humain, qui tente de remplacer un ensemble fragmenté de réseaux spécialisés par une seule fondation unifiée. L'entreprise a rassemblé dans une seule gamme des tâches qui existent généralement séparément : estimation de la pose humaine, segmentation des parties du corps, reconstruction des normales de surface, pointmap pour la géométrie 3D et estimation de l'albédo. Pour le marché, c'est un signal important : Meta continue de parier non seulement sur l'IA générative, mais aussi sur la vision par ordinateur pratique, qui est nécessaire pour les appareils AR, les avatars numériques, l'essayage virtuel, la capture de mouvement et l'analyse vidéo.
L'idée principale derrière Sapiens2 est qu'une seule architecture de base peut fonctionner à plusieurs niveaux de compréhension de la présence humaine dans une image. Le système n'a plus besoin d'un réseau séparé pour le squelette, d'un autre pour le marquage du corps et d'un troisième pour la géométrie de surface. Meta affirme qu'une seule épine dorsale, après ajustement fin, couvre tous ces scénarios.
En termes pratiques, cela simplifie le pipeline de production : moins de composants, moins de désynchronisation entre les modèles et des coûts de maintenance réduits. Dans les points de contrôle publiés, il y a, notamment, un modèle pour l'estimation de pose top-down sur 308 points clés, y compris des points détaillés du visage, des mains et des pieds, ainsi qu'une segmentation en 29 classes de parties du corps. La mise à jour clé ne porte pas seulement sur l'ensemble des tâches, mais aussi sur la façon dont le modèle a été entraîné.
Sapiens2 a été pré-entraînée sur un ensemble de données curées de 1 milliard d'images de haute qualité de personnes. Dans le pré-entraînement, Meta a combiné la reconstruction d'images masquées avec un objectif contrastif auto-distillé, de sorte que le modèle maintienne simultanément les détails de bas niveau pour la prédiction dense et la sémantique de haut niveau pour les scénarios zéro-shot et peu-labellisés. L'architecture a également utilisé des techniques provenant de modèles frontier plus récents pour soutenir des cycles d'entraînement plus longs sans perte de stabilité.
La gamme varie de 0,4 à 5 milliards de paramètres, fonctionne en résolution native 1K, et les variantes hiérarchiques supportent 4K et utilisent l'attention fenêtrée pour un contexte spatial plus long. Comparé à la première génération de Sapiens, Meta affirme une amélioration notable sur presque toutes les métriques clés. Sur la tâche d'estimation de pose, la nouvelle version ajoute 4 points de mAP, sur la segmentation des parties du corps — 24,3 points de mIoU, et dans l'évaluation des normales de surface, elle réduit l'erreur angulaire de 45,6%.
Séparément important est que Sapiens2 va au-delà des tâches typiques de la première version. Maintenant la famille peut construire des pointmaps, c'est-à-dire prédire les coordonnées 3D du système de caméra pour chaque pixel, et travailler avec l'albédo — la couleur de base de la surface sans l'influence de l'éclairage. Pour les avatars, l'AR et l'essayage virtuel, ces représentations sont particulièrement utiles : elles aident à reconstruire plus précisément la forme humaine, à transférer l'éclairage et à construire des scènes 3D plus plausibles à partir d'une photographie ordinaire.
La valeur pratique de la version est que Meta ne s'est pas limitée à une publication de recherche. L'entreprise a déjà publié la famille Sapiens2 sur Hugging Face et le code sur GitHub, avec des variantes individuelles pour la pose, la segmentation, les normales et pointmap disponibles dans la collection. Cela réduit la barrière à l'entrée pour les équipes qui construisent des produits autour de la vision par ordinateur pour les humains : des applications de fitness et des systèmes d'analyse vidéo aux interfaces XR et aux personnages virtuels.
Dans le même temps, il est important de se souvenir que Sapiens2 n'est pas un modèle universel pour une vision par ordinateur quelconque, mais plutôt une stack forte pour l'imagerie centrée sur l'humain. C'est-à-dire que sa principale zone de force est les images où l'humain, sa pose, sa surface, ses vêtements et sa géométrie corporelle restent l'objet central. Ce que cela signifie en pratique : Meta fait un autre pas vers une épine dorsale visuelle unifiée pour tout ce qui concerne l'humain dans l'image.
Si les résultats annoncés sont confirmés dans des scénarios réels de production, l'entreprise aura une base solide pour ses propres produits XR et établira simultanément une nouvelle norme pour la recherche ouverte en vision centrée sur l'humain. Pour le marché, c'est un bon exemple de la façon dont les modèles de base commencent à apporter des avantages non seulement en texte et en génération, mais aussi dans les tâches précises et d'ingénierie de la vision par ordinateur.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.