La generación de imágenes humanas hiperrealistas a partir de condiciones definidas por el usuario, como texto y pose, es significativa para diversas aplicaciones, incluidas la animación de imágenes y las pruebas virtuales. Se han realizado numerosos esfuerzos para explorar la tarea de la generación controlable de imágenes humanas. Los primeros métodos se basaban en codificadores automáticos variacionales (VAE) a modo de reconstrucción o realismo mejorado a través de redes generativas adversarias (GAN). A pesar de la creación de imágenes de alta calidad mediante algunos métodos, desafíos como el entrenamiento inestable y la capacidad limitada del modelo las limitaron a conjuntos de datos pequeños con baja diversidad.
La reciente aparición de modelos de difusión (DM) ha introducido un nuevo paradigma para la síntesis realista, convirtiéndose en la arquitectura predominante en la IA generativa. Sin embargo, modelos ejemplares de conversión de texto a imagen (T2I) como Stable Diffusion y DALL·E 2 todavía luchan por crear imágenes humanas con una anatomía coherente, como brazos, piernas y poses naturales. El principal desafío radica en las deformaciones no rígidas de la forma humana, que requieren información estructural que es difícil de representar únicamente a través de indicaciones de texto.
Trabajos recientes, como ControlNet y T2I-Adapter, han intentado habilitar el control estructural para la generación de imágenes mediante la introducción de una rama que se puede aprender para modular los DM previamente entrenados, como Stable Diffusion, de forma plug-and-play. Sin embargo, estos enfoques adolecen de discrepancias en las características entre las ramas principal y auxiliar, lo que resulta en una inconsistencia entre las señales de control (por ejemplo, mapas de pose) y las imágenes generadas. HumanSD propone ingresar directamente el esqueleto del cuerpo en la U-Net de difusión a través de la concatenación de canales para abordar esto. Sin embargo, este método se limita a generar imágenes de estilo artístico con una diversidad limitada. Además, el contenido humano se sintetiza sólo con control de pose, descuidando otra información estructural crucial como mapas de profundidad y mapas de superficie normal.
El trabajo presentado en este artículo propone un marco unificado, HyperHuman, para generar imágenes humanas en estado salvaje con alto realismo y diseños diversos. Su descripción general se ilustra en la siguiente figura.
La idea clave es reconocer la naturaleza inherentemente estructural de las imágenes humanas en múltiples granularidades, desde esqueletos corporales de nivel burdo hasta geometría espacial de grano fino. Captar tales correlaciones entre la apariencia explícita y la estructura latente en un modelo es esencial para generar imágenes humanas coherentes y naturales. El artículo establece un conjunto de datos a gran escala centrado en el ser humano llamado HumanVerse, que contiene 340 millones de imágenes humanas en estado salvaje con anotaciones completas. Con base en este conjunto de datos, se diseñan dos módulos para la generación de imágenes humanas controlables hiperrealistas: el modelo de difusión estructural latente y el refinador guiado por estructura. El primero aumenta la columna vertebral de difusión previamente entrenada para eliminar simultáneamente el ruido RGB, la profundidad y los aspectos normales, asegurando la alineación espacial entre texturas y estructuras eliminadas.
Debido a un diseño tan meticuloso, el modelado de la apariencia de la imagen, las relaciones espaciales y la geometría se produce de forma colaborativa dentro de una red unificada. Cada rama complementa a las demás, incorporando tanto conciencia estructural como riqueza textural. Un programa de ruido mejorado elimina la fuga de información de baja frecuencia, lo que garantiza valores uniformes de profundidad y superficie normal en las regiones locales. Emplear el mismo paso de tiempo para cada rama mejora el aprendizaje y facilita la fusión de funciones. Con mapas de estructuras alineados espacialmente, el refinador guiado por estructuras compone las condiciones previstas para la generación de imágenes detalladas de alta resolución. Además, se diseña un esquema de acondicionamiento sólido para aliviar el impacto de la acumulación de errores en el proceso de generación de dos etapas.
A continuación se presenta una comparación con las técnicas más modernas.
La primera cuadrícula de 4 × 4 de cada fila contiene el esqueleto de entrada, RGB normal, de profundidad y grueso sin ruido (512 × 512) calculado por HyperHuman.
Este fue el resumen de HyperHuman, un novedoso marco de IA para generar imágenes humanas en estado salvaje con alto realismo y diseños diversos. Si está interesado y desea obtener más información al respecto, no dude en consultar los enlaces que se citan a continuación.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Daniele Lorenzi recibió su M.Sc. en TIC para Ingeniería de Internet y Multimedia en 2021 de la Universidad de Padua, Italia. Es un doctorado. Candidato en el Instituto de Tecnología de la Información (ITEC) de la Alpen-Adria-Universität (AAU) de Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler ATHENA y sus intereses de investigación incluyen transmisión de video adaptativa, medios inmersivos, aprendizaje automático y evaluación de QoS/QoE.