Los modelos de lenguajes grandes (LLM) se han apoderado recientemente de la comunidad de inteligencia artificial (IA), todo gracias a sus maravillosas capacidades y rendimiento. Estos modelos han mostrado aplicaciones notables en casi todas las industrias basadas en el poder de los subcampos de la IA, incluido el procesamiento del lenguaje natural, la generación del lenguaje natural y la visión por computadora. Aunque la visión por computadora y especialmente los modelos de difusión han ganado una atención significativa, producir nuevas perspectivas coherentes y de alta fidelidad con aportes limitados sigue siendo un desafío.
Para abordar el desafío, en una investigación reciente, un equipo de investigadores de ByteDance presentó DiffPortrait3D, un modelo de difusión condicional único que ha sido diseñado para crear vistas fotorrealistas y consistentes en 3D a partir de un único retrato en la naturaleza. DiffPortrait3D puede reconstruir un único retrato bidimensional (2D) sin restricciones en una representación tridimensional (3D) de un rostro humano.
El modelo preserva la identidad y las expresiones del sujeto mientras produce detalles faciales realistas desde nuevos ángulos de cámara. La principal innovación de este enfoque es su capacidad de disparo cero, que le permite generalizar a una amplia gama de retratos de rostros, incluidos aquellos con vistas de cámara sin pose, expresiones faciales extremas y una variedad de estilos artísticos, sin la necesidad de una optimización que requiere mucho tiempo. o procedimientos de ajuste.
El componente fundamental de DiffPortrait3D es el previo generativo de modelos de difusión 2D que han sido previamente entrenados en grandes conjuntos de datos de imágenes y que actúa como marco de representación del modelo. Un mecanismo de control atento desenredado que controla la apariencia y la postura de la cámara facilita la eliminación de ruido. El contexto de apariencia de una imagen de referencia se inyecta en las capas de autoatención de las UNets congeladas, donde estas UNets son una parte esencial del mecanismo de difusión.
DiffPortrait3D utiliza un módulo de control condicional especial para cambiar la vista de renderizado. Este módulo analiza una imagen de condición de un sujeto fotografiado desde el mismo ángulo para interpretar la actitud de la cámara. Esto permite al modelo combinar rasgos faciales consistentes desde diferentes ángulos de visión.
Para mejorar aún más la coherencia visual, también se ha presentado un módulo de atención de vista cruzada entrenable. En situaciones en las que las expresiones faciales severas o las perspectivas de la cámara sin postura podrían generar dificultades, este módulo resulta especialmente útil.
También se ha incluido un mecanismo exclusivo de generación de ruido con reconocimiento 3D para garantizar la resiliencia durante la inferencia. Esta etapa aumenta la estabilidad y el realismo general de las imágenes sintetizadas. El equipo evaluó y accedió al rendimiento de DiffPortrait3D en exigentes puntos de referencia de múltiples vistas y en condiciones naturales, mostrando resultados de última generación tanto cualitativa como numéricamente. El enfoque ha demostrado su eficacia para abordar los desafíos de la síntesis de retratos en 3D de una sola imagen al producir reconstrucciones faciales realistas y de alta calidad en una variedad de estilos y entornos artísticos.
El equipo ha compartido sus principales contribuciones de la siguiente manera.
- Se ha introducido un método único de disparo cero para crear vistas novedosas consistentes en 3D a partir de un solo retrato ampliando la difusión estable 2D.
- Este enfoque ha demostrado logros impresionantes en la síntesis de vistas únicas, admitiendo una variedad de retratos en términos de apariencia, expresión, actitud y estilo sin requerir ajustes laboriosos.
- Utiliza un sistema de control claramente separado para la apariencia y la vista de la cámara, lo que permite una manipulación eficiente de la cámara sin comprometer la expresión o identidad del sujeto.
- El enfoque combina un módulo de atención de vista cruzada con una técnica de creación de ruido con reconocimiento 3D para proporcionar consistencia de largo alcance en vistas 3D.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.