Si alguna vez ha visto un sistema de captura de movimiento luchar con los dedos de una persona, o ha visto un modelo de segmentación que no logra distinguir los dientes de las encías, ya comprende por qué la visión por computadora centrada en el ser humano es difícil. Los humanos no son sólo objetos, tienen una estructura articulada, finos detalles superficiales y una enorme variación en pose, vestimenta, iluminación y origen étnico. Conseguir que un modelo entienda todo eso, a la vez, a través de imágenes arbitrarias del mundo real, es realmente difícil.
El equipo de investigación de Meta AI presentó Sapiens2, la segunda generación de su familia de modelos básicos para la visión centrada en el ser humano. Sapiens2, formado con un conjunto de datos recientemente seleccionado de mil millones de imágenes humanas, que abarca tamaños de modelo de 0,4 mil millones a 5 mil millones de parámetros, y diseñado para operar con una resolución nativa de 1K con variantes jerárquicas que admiten 4K, es un salto sustancial con respecto a su predecesor en todos los puntos de referencia que evaluó el equipo.
Lo que Sapiens2 está intentando resolver
El modelo original de Sapiens se basaba principalmente en el preentrenamiento del Masked Autoencoder (MAE). MAE funciona enmascarando una gran parte de los parches de la imagen de entrada, el 75% en este caso, y entrenando el modelo para reconstruir los píxeles faltantes. Esto obliga al modelo a aprender texturas y detalles espaciales, lo que resulta útil para tareas de predicción densa como la segmentación o la estimación de profundidad.
El problema es que MAE, como forma de modelado de imágenes enmascaradas (MIM), aprende en gran medida a través de la compresión. Naturalmente, no aprende semántica de alto nivel. Puede decirte cómo luce algo, pero no necesariamente qué significa en el contexto de un cuerpo humano. Ahí es donde brillan los métodos de aprendizaje contrastivo (CL) como DINO y SimCLR: organizan las representaciones semánticamente entrenando el modelo para tratar diferentes vistas de la misma imagen como similares y vistas de diferentes imágenes como distintas.
Pero CL tiene su propia contrapartida. Sus agresivas estrategias de aumento, como la fluctuación del color y el desenfoque, pueden eliminar señales de apariencia como el tono de la piel o las condiciones de iluminación que son críticas para tareas como la estimación del albedo (recuperar el color verdadero de una superficie independientemente de la iluminación). Esto es lo que el equipo de investigación llama deriva de representación.
Sapiens2 aborda este problema directamente combinando ambos objetivos: una pérdida de reconstrucción de imagen enmascarada (LMAE) para preservar la fidelidad de bajo nivel, y una pérdida de contraste global (LCL) en la imagen. [CLS] token utilizando un marco estudiante-maestro basado en DINOv3, donde los parámetros del maestro son un promedio móvil exponencial (EMA) del estudiante. Fundamentalmente, los aumentos de color no se aplican a las vistas globales utilizadas para el objetivo MAE, preservando las señales de apariencia necesarias para las tareas fotorrealistas. El objetivo conjunto es L = LMAE + λLCL.
Los datos: Humanos-1B
Obtener mil millones de imágenes de entrenamiento correctas requirió un proceso de filtrado de varias etapas. A partir de un conjunto a escala web de aproximadamente 4 mil millones de imágenes, el equipo de Meta aplicó detección de cuadros delimitadores, estimación de la postura de la cabeza, puntuación estética y de realismo, filtrado de funciones basado en CLIP y detección de superposición de texto. El resultado es un corpus curado donde cada imagen contiene al menos una persona destacada con una resolución mínima de lado corto de 384 píxeles.
Para garantizar la diversidad, el equipo de investigación utilizó hash perceptivo y poda de características profundas del vecino más cercano para la deduplicación, luego agrupó incrustaciones visuales y aplicó muestreo selectivo para equilibrar el conjunto de datos entre poses, puntos de vista, niveles de oclusión, tipos de ropa y condiciones de iluminación. Durante el preentrenamiento no se inyectaron etiquetas de tareas ni antecedentes específicos de humanos, solo imágenes.
La arquitectura: escalamiento a 5B y 4K
Sapiens2 presenta cuatro tamaños de modelo: parámetros 0.4B, 0.8B, 1B y 5B, cada uno con una resolución nativa de 1K. El modelo 5B es el transformador de visión con los FLOP más altos reportados hasta la fecha con 15,722 TFLOP.
Para la resolución 4K, el equipo de investigación adoptó un diseño jerárquico de atención en ventanas. Las primeras capas K aplican localmente la autoatención de las ventanas para capturar texturas finas y límites dentro de las ventanas espaciales. A [CLS]El paso de agrupación guiada luego reduce la muestra de la cuadrícula de tokens 2D en un paso espacial √ω, y las capas L posteriores aplican autoatención global sobre esta secuencia reducida. Este diseño es compatible con el preentrenamiento de estilo MAE porque los tokens enmascarados se pueden eliminar después de la etapa local, evitando que la información se filtre a través de regiones enmascaradas, un problema que las redes troncales convolucionales generalmente necesitan convoluciones enmascaradas para evitar.
La estrategia de enmascaramiento en sí también está cuidadosamente diseñada: Sapiens2 utiliza enmascaramiento mixto por bloques/por parches (probabilidad por bloques de 0,4) con una proporción de máscara del 75 % con un tamaño de parche de 16. Con una resolución de 1024 × 768 (64 × 48 = 3072 parches), esto enmascara aproximadamente 2304 parches por imagen, lo que es suficiente para crear oclusiones gruesas que regularizan el MAE y al mismo tiempo preservan el contexto suficiente para el objetivo contrastivo.
Para lograr estabilidad a escala, la arquitectura incorpora varias mejoras: RMSNorm reemplaza a LayerNorm, Atención de consultas agrupadas (GQA) en bloques de profundidad media para un mayor rendimiento, QK-Norm para un entrenamiento sólido de alta resolución y capas de retroalimentación SwiGLU. El decodificador utiliza un muestreo ascendente aleatorio de píxeles para el razonamiento de subpíxeles. La resolución de salida del decodificador también aumentó de 0,5K a 1K para las redes troncales base y a 2K para las troncales 4K.
Post-capacitación: cinco tareas humanas, 10 veces más supervisión
Una mejora fundamental con respecto al Sapiens original es la escala y la calidad de la supervisión de tareas específicas. En comparación con la primera generación, Sapiens2 escala las etiquetas específicas de tareas 10 veces, alcanzando normalmente alrededor de 1 millón de etiquetas por tarea. Después del entrenamiento previo, la columna vertebral se ajusta para cinco tareas posteriores utilizando cabezales livianos para tareas específicas, sin modificar la columna vertebral:
Estimación de pose: un esqueleto de cuerpo completo de 308 puntos clave con cobertura densa de cara (243 puntos clave) y manos (40 puntos clave). El equipo de investigación recientemente anotó imágenes en estado salvaje de 100.000 para complementar los datos de captura de estudio, mejorando significativamente la generalización. Segmentación de partes del cuerpo: 29 clases semánticas (ampliadas de 28 agregando anteojos), entrenadas con entropía cruzada ponderada por píxel combinada con pérdida de dados para límites más nítidos. Estimación de mapa de puntos: en lugar de predecir la profundidad relativa, Sapiens2 hace una regresión de un mapa de puntos 3D por píxel P̂(u) ∈ ℝ³ en el marco de la cámara, una tarea más difícil que requiere razonamiento sobre los intrínsecos de la cámara. Estimación normal: normales de unidades de superficie por píxel, decodificadas utilizando múltiples capas PixelShuffle para un muestreo superior sin artefactos. Estimación del albedo: albedo difuso por píxel Â(u) ∈ [0,1]³, entrenado exclusivamente con datos sintéticos de alta fidelidad y diseñado para recuperar el tono de piel y el color de la ropa reales bajo iluminación variable.
Resultados
Es difícil discutir con las cifras. En el conjunto de prueba de pose en la naturaleza con imágenes de 11K, Sapiens2-5B logra 82,3 mAP en comparación con los 78,3 mAP de Sapiens-2B, una mejora de +4 mAP. En la segmentación de partes del cuerpo, incluso el modelo más pequeño, Sapiens2-0.4B, obtiene 79,5 mIoU (+21,3 sobre Sapiens-2B*), mientras que Sapiens2-5B alcanza 82,5 mIoU, una ganancia de +24,3 mIoU sobre el modelo más grande de la generación anterior. La variante 4K, Sapiens2-1B-4K, impulsa aún más la segmentación a 81,9 mIoU y 92,0 mAcc, lo que demuestra el beneficio de un razonamiento de mayor resolución.
En la estimación de la superficie normal, Sapiens2-0.4B ya logra un error angular medio de 8,63°, superando al anterior DAViD-L de última generación con 10,73°. El modelo 5B lo reduce aún más a 6,73°, y la variante 4K alcanza los 6,98° con un error angular medio de sólo 3,08°.
Para la estimación del albedo, Sapiens2-5B logra un MAE de 0,012 y un PSNR de 32,61 dB, con una mejora constante en todos los tamaños de modelo. En la estimación de mapas de puntos, todos los tamaños del modelo Sapiens2 superan a MoGe, que anteriormente era lo último en estimación de geometría monocular.
En evaluaciones de sondeo densas, donde la columna vertebral está congelada y solo se entrenan decodificadores livianos con hiperparámetros idénticos, Sapiens2-5B supera todas las líneas de base en cada tarea, incluido DINOv3-7B (parámetros 6.71B), a pesar de que Sapiens2 es un modelo humano-especializado evaluado contra una columna vertebral de propósito general de casi 1,5 veces su tamaño.
Consulte los pesos de los modelos con demostraciones, papel y repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros