Meta presentó Sapiens2 — un modelo unificado de visión por computadora para pose, segmentación y 3D
Meta lanzó Sapiens2 — una nueva familia de modelos de visión de alta resolución para tareas relacionadas con humanos. Una única arquitectura cubre estimación…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Meta Reality Labs ha lanzado Sapiens2 — la próxima generación de modelos de visión centrados en el humano, que intenta reemplazar un conjunto fragmentado de redes especializadas con una única fundación unificada. La empresa ha reunido en una única línea tareas que típicamente existen por separado: estimación de pose humana, segmentación de partes del cuerpo, reconstrucción de normales de superficie, pointmap para geometría 3D y estimación de albedo. Para el mercado, esta es una señal importante: Meta continúa apostando no solo por IA generativa, sino también por visión computacional práctica, que es necesaria para dispositivos AR, avatares digitales, prueba virtual, captura de movimiento y análisis de video.
La idea principal detrás de Sapiens2 es que una única arquitectura base puede trabajar en múltiples niveles de comprensión de la presencia humana en un fotograma. El sistema ya no requiere una red separada para el esqueleto, otra para marcado corporal y una tercera para geometría de superficie. Meta afirma que una única backbone, después del ajuste fino, cubre todos estos escenarios.
En términos prácticos, esto simplifica el pipeline de producción: menos componentes, menos desincronización entre modelos y menores costos de mantenimiento. En los checkpoints publicados, hay, en particular, un modelo para estimación de pose top-down en 308 puntos clave, incluyendo puntos detallados del rostro, manos y pies, así como segmentación en 29 clases de partes del cuerpo. La actualización clave no es solo en el conjunto de tareas, sino también en cómo se entrenó el modelo.
Sapiens2 fue preentrenada en un conjunto de datos curado de 1 mil millones de imágenes de alta calidad de personas. En el preentrenamiento, Meta combinó reconstrucción de imágenes enmascaradas con objetivo contrastivo auto-destilado, para que el modelo simultáneamente mantuviera detalles de bajo nivel para predicción densa y semántica de alto nivel para escenarios zero-shot y few-label. La arquitectura también empleó técnicas de modelos frontier más recientes para sostener ciclos de entrenamiento más largos sin pérdida de estabilidad.
La línea se escala de 0,4 a 5 mil millones de parámetros, funciona en resolución nativa 1K, y variantes jerárquicas soportan 4K y utilizan atención con ventana para contexto espacial más largo. Comparado con la primera generación de Sapiens, Meta afirma una mejora notable en casi todas las métricas clave. En la tarea de estimación de pose, la nueva versión añade 4 puntos de mAP, en segmentación de partes del cuerpo — 24,3 puntos de mIoU, y en evaluación de normales de superficie reduce el error angular en 45,6%.
Separadamente importante es que Sapiens2 va más allá de las tareas típicas del primer lanzamiento. Ahora la familia puede construir pointmaps, es decir, predecir coordenadas 3D en el sistema de cámara para cada píxel, y trabajar con albedo — el color base de la superficie sin influencia de la iluminación. Para avatares, AR y prueba virtual, estas representaciones son particularmente útiles: ayudan a reconstruir con mayor precisión la forma humana, transferir iluminación y construir escenas 3D más plausibles a partir de una fotografía común.
El valor práctico del lanzamiento es que Meta no se limitó a una publicación de investigación. La empresa ya ha publicado la familia Sapiens2 en Hugging Face y el código en GitHub, con variantes individuales para pose, segmentación, normales y pointmap disponibles en la colección. Esto reduce la barrera de entrada para equipos que construyen productos alrededor de visión computacional para humanos: desde aplicaciones de fitness y sistemas de análisis de video hasta interfaces XR y personajes virtuales.
Al mismo tiempo, es importante recordar que Sapiens2 no es un modelo universal para cualquier visión computacional, sino más bien una stack fuerte para imágenes centradas en el humano. Es decir, su principal zona de fortaleza son fotogramas donde el humano, su pose, superficie, ropa y geometría corporal permanecen como el objeto central. Lo que esto significa en la práctica: Meta está dando otro paso hacia una backbone visual unificada para todo lo relacionado con el humano en el fotograma.
Si los resultados afirmados se confirman en escenarios reales de producción, la empresa tendrá una base sólida para sus propios productos XR y simultáneamente establecerá un nuevo estándar para investigación abierta en visión centrada en el humano. Para el mercado, este es un buen ejemplo de cómo los modelos de fundación están comenzando a aportar beneficios no solo en texto y generación, sino también en tareas precisas de ingeniería de visión computacional.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.