Blog Banner 2.png

Las industrias de la salud, la moda y el fitness están muy interesadas en el difícil problema de la visión por computadora que supone la reconstrucción en 3D de partes del cuerpo humano a partir de imágenes. En este estudio abordan la cuestión de la reconstrucción de un pie humano. Los modelos de pie precisos son útiles para comprar calzado, ortesis y controlar la salud personal, y la idea de recuperar un modelo de pie en 3D a partir de imágenes se ha vuelto muy atractiva a medida que crece el mercado digital para estas empresas. Existen cuatro tipos de soluciones de reconstrucción del pie: Los costosos aparatos de escaneo son un método de reconstrucción de nubes de puntos ruidosas, utilizando mapas de profundidad o sensores basados ​​en teléfonos como una cámara TrueDepth, es otra Estructura a partir de movimiento (SfM), seguida de Multi-View. Un cuarto método consiste en adaptar modelos estéreo (MVS) y generativos de pies para representar siluetas.

Concluyen que ninguna de estas opciones es adecuada para un escaneo preciso en un entorno doméstico: la mayoría de las personas no pueden permitirse equipos de escaneo costosos; los sensores basados ​​en teléfonos no están ampliamente disponibles ni son fáciles de usar; Las nubes de puntos ruidosas son difíciles de utilizar para actividades posteriores, como renderizado y medición; Además, los modelos generativos de pies han sido de baja calidad y restrictivos, y el uso solo de siluetas de imágenes limita la cantidad de información geométrica que se puede obtener de las imágenes, lo cual es especialmente problemático en un entorno de pocas vistas. SfM depende de muchas vistas de entrada para hacer coincidir características densas entre imágenes, y MVS también puede producir nubes de puntos ruidosas.

La insuficiente disponibilidad de imágenes pareadas y datos reales en 3D de los pies para el entrenamiento limita aún más el rendimiento de estos enfoques. Para ello, investigadores de la Universidad de Cambridge presentan FOUND, o Foot Optimisation, utilizando normales inciertas para la deformación de la superficie. Este algoritmo utiliza incertidumbres además de las normales de superficie por píxel para mejorar los enfoques convencionales de optimización de reconstrucción de vistas múltiples. Por ejemplo, su técnica necesita una cantidad mínima de fotografías RGB de entrada que hayan sido calibradas. A pesar de basarse únicamente en siluetas, que carecen de información geométrica, utilizan normales de superficie y puntos clave como pistas complementarias. También ponen a disposición una colección considerable de fotografías artificialmente fotorrealistas combinadas con etiquetas reales para que este tipo de señales superen la escasez de datos.

Sus principales contribuciones se describen a continuación:

• Lanzan SynFoot, un conjunto de datos sintéticos a gran escala de 50.000 imágenes fotorrealistas de pies con siluetas precisas, superficie normal y etiquetas de puntos clave, para ayudar en la investigación sobre la reconstrucción del pie en 3D. Aunque obtener dicha información en fotografías reales requiere costosos aparatos de escaneo, su conjunto de datos exhibe una gran escalabilidad. Demuestran que su conjunto de datos sintéticos captura suficiente variación dentro de las imágenes de los pies para que las tareas posteriores se generalicen a imágenes reales a pesar de tener solo 8 escaneos de pies del mundo real. Además, ponen a disposición un conjunto de datos de evaluación que consta de 474 fotografías de 14 pies reales. Cada uno de ellos combinado con escaneos 3D de alta resolución y normales de superficie por píxel reales. Por último, dan a conocer su biblioteca Python patentada para Blender, que permite la creación efectiva de conjuntos de datos sintéticos a gran escala.

• Muestran que una red de estimación de la normalidad de la superficie consciente de la incertidumbre puede generalizarse a imágenes reales de pies en estado salvaje después de entrenarse únicamente con sus datos sintéticos de escaneos de 8 pies. Para reducir la diferencia en el dominio entre fotografías de pies artificiales y auténticas, emplean una apariencia agresiva y un aumento de perspectiva. La red calcula la incertidumbre asociada y las normales de superficie en cada píxel. La incertidumbre es útil de dos maneras: primero, al establecer un umbral para la incertidumbre, pueden obtener siluetas precisas sin tener que entrenar una red diferente; en segundo lugar, al utilizar la incertidumbre estimada para ponderar la pérdida normal de la superficie en su esquema de optimización, pueden aumentar la solidez frente a la posibilidad de que las predicciones realizadas en algunas vistas no sean precisas.

• Proporcionan una estrategia de optimización que utiliza renderizado diferenciable para ajustar un modelo generativo de pie a una serie de fotografías calibradas con puntos clave y normales de superficie esperados. Su tubería supera a la fotogrametría de última generación para la reconstrucción de superficies, es consciente de la incertidumbre y puede reconstruir una malla hermética a partir de un número limitado de vistas. También se puede utilizar para datos obtenidos del teléfono móvil de un consumidor.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.