La computación cuántica suele ser alabada por su potencial para revolucionar la resolución de problemas, especialmente cuando las computadoras clásicas enfrentan limitaciones sustanciales. Si bien gran parte de la discusión ha girado en torno a las ventajas teóricas del escalamiento asintótico, es crucial identificar aplicaciones prácticas para las computadoras cuánticas en problemas de tamaño finito. Ejemplos concretos demuestran qué problemas pueden abordar las computadoras cuánticas de manera más eficiente que sus contrapartes clásicas y cómo se pueden emplear algoritmos cuánticos para estas tareas. En los últimos años, los esfuerzos de investigación colaborativa han explorado aplicaciones del mundo real para la computación cuántica, ofreciendo conocimientos sobre dominios de problemas específicos que pueden beneficiarse de esta tecnología emergente.
Los modelos de texto a imagen (T2I) basados en difusión se han convertido en una opción líder para la generación de imágenes debido a su escalabilidad y estabilidad de entrenamiento. Sin embargo, modelos como Stable Diffusion necesitan ayuda para crear imágenes humanas de alta fidelidad. Los enfoques tradicionales para la generación humana controlable tienen limitaciones. Los investigadores propusieron que el marco HyperHuman supera estos desafíos al capturar correlaciones entre la apariencia y la estructura latente. Incorpora un gran conjunto de datos centrado en el ser humano, un modelo de difusión estructural latente y un refinador guiado por estructura, logrando un rendimiento de última generación en la generación de imágenes humanas hiperrealistas.
Generar imágenes humanas hiperrealistas a partir de las condiciones del usuario, como texto y pose, es crucial para aplicaciones como la animación de imágenes y las pruebas virtuales. Los primeros métodos que utilizaban VAE o GAN enfrentaban limitaciones en la estabilidad y capacidad del entrenamiento. Los modelos de difusión han revolucionado la IA generativa, pero los modelos T2I existentes tenían problemas con la anatomía humana coherente y las poses naturales. HyperHuman presenta un marco que captura las correlaciones apariencia-estructura, garantizando un alto realismo y diversidad en la generación de imágenes humanas y abordando estos desafíos.
HyperHuman es un marco para generar imágenes humanas hiperrealistas. Incluye un vasto conjunto de datos centrado en el ser humano, HumanVerse, con 340 millones de imágenes comentadas. HyperHuman incorpora un modelo de difusión estructural latente que elimina el ruido de la profundidad y la superficie normal mientras genera imágenes RGB. Un refinador guiado por estructura mejora la calidad y el detalle de las imágenes sintetizadas. Su marco produce imágenes humanas hiperrealistas en varios escenarios.
Su estudio evalúa el marco HyperHuman utilizando varias métricas, incluidas FID, KID y FID CLIP para la calidad y diversidad de la imagen, similitud CLIP para la alineación texto-imagen y métricas de precisión de pose. HyperHuman sobresale en calidad de imagen y precisión de pose, ocupando el segundo lugar en puntuaciones CLIP a pesar de utilizar un modelo más pequeño. Su marco demuestra un rendimiento equilibrado entre la calidad de la imagen, la alineación del texto y las escalas CFG de uso común.
En conclusión, el marco HyperHuman introduce un nuevo enfoque para generar imágenes humanas hiperrealistas, superando desafíos en materia de coherencia y naturalidad. Desarrolla imágenes de alta calidad, diversas y alineadas con texto aprovechando el conjunto de datos HumanVerse y un modelo de difusión estructural latente. El refinador guiado por estructura del marco mejora la calidad y la resolución visuales. Avanza significativamente en la generación de imágenes humanas hiperrealistas con un rendimiento y una robustez superiores en comparación con los modelos anteriores. Investigaciones futuras pueden explorar el uso de antecedentes profundos como los LLM para lograr la generación de texto a pose, eliminando la necesidad de ingresar el esqueleto del cuerpo.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.
Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.