Meta a présenté Sapiens2 — un modèle unifié de vision par ordinateur pour la pose, la segmentation et la 3D
Meta a lancé Sapiens2 — une nouvelle famille de modèles de vision haute résolution pour les tâches liées aux humains. Une seule architecture couvre l'estimation

Meta Reality Labs выпустила Sapiens2 — новое поколение human-centric vision-моделей, которое пытается заменить разрозненный набор специализированных сетей одной общей основой. В одной линейке компания собрала задачи, которые обычно живут отдельно: оценку позы человека, сегментацию частей тела, восстановление нормалей поверхности, pointmap для 3D-геометрии и оценку albedo. Для рынка это важный сигнал: Meta продолжает делать ставку не только на генеративный ИИ, но и на прикладное компьютерное зрение, которое нужно для AR-устройств, цифровых аватаров, виртуальной примерки, motion capture и анализа видео.
Главная идея Sapiens2 в том, что одна базовая архитектура может работать сразу на нескольких уровнях понимания человека в кадре. От системы больше не требуется отдельная сеть для скелета, другая для разметки тела и третья для геометрии поверхности. Meta утверждает, что один backbone после дообучения закрывает все эти сценарии.
В прикладном смысле это упрощает продакшен-пайплайн: меньше компонентов, меньше рассинхронизации между моделями и меньше затрат на поддержку. В опубликованных чекпойнтах есть, в частности, модель для top-down pose estimation на 308 ключевых точках, включая детализированные точки лица, рук и стоп, а также сегментация на 29 классов частей тела. Ключевое обновление — не только в наборе задач, но и в том, как модель обучали.
Sapiens2 предобучали на курированном датасете из 1 миллиарда качественных изображений людей. В pretraining Meta объединила masked image reconstruction с self-distilled contrastive objective, чтобы модель одновременно лучше держала низкоуровневые детали для dense prediction и высокоуровневую семантику для zero-shot и few-label сценариев. В архитектуре также использовали приемы из более свежих frontier-моделей, чтобы выдерживать более длинные циклы обучения без потери стабильности.
Линейка масштабируется от 0,4 до 5 млрд параметров, работает в нативном разрешении 1K, а иерархические варианты поддерживают 4K и используют windowed attention для более длинного пространственного контекста. По сравнению с первым поколением Sapiens Meta заявляет заметный прирост почти по всем ключевым метрикам. На задаче pose estimation новая версия прибавляет 4 пункта mAP, на body-part segmentation — 24,3 пункта mIoU, а в оценке surface normals снижает угловую ошибку на 45,6%.
Отдельно важно, что Sapiens2 выходит за рамки привычных задач первого релиза. Теперь семейство умеет строить pointmap, то есть предсказывать для каждого пикселя 3D-координаты в системе камеры, и работать с albedo — базовым цветом поверхности без влияния освещения. Для аватаров, AR и цифровой примерки это особенно полезно: такие представления помогают точнее восстанавливать форму человека, переносить освещение и строить более правдоподобные 3D-сцены из обычной фотографии.
Практическая ценность релиза в том, что Meta не ограничилась исследовательской публикацией. Компания уже выложила семейство Sapiens2 на Hugging Face и код на GitHub, а в коллекции доступны отдельные варианты для pose, segmentation, normals и pointmap. Это снижает порог входа для команд, которые строят продукты вокруг компьютерного зрения для человека: от фитнес-приложений и систем видеоаналитики до XR-интерфейсов и виртуальных персонажей.
При этом важно помнить, что Sapiens2 — не универсальная модель для любого компьютерного зрения, а именно сильный стек для human-centric imagery. То есть его главная зона силы — кадры, где центральным объектом остается человек, его поза, поверхность, одежда и геометрия тела. Что это значит на практике: Meta делает еще один шаг к унифицированному visual backbone для всего, что связано с человеком в кадре.
Если заявленные результаты подтвердятся в реальных продакшен-сценариях, компания получит сильную базу для собственных XR-продуктов и одновременно задаст новую планку для open research в human-centric vision. Для рынка это хороший пример того, как foundation models начинают приносить выгоду не только в тексте и генерации, но и в точных, инженерных задачах компьютерного зрения.