Screenshot 2024 04 01 At 12.42.40 Am.png

La aparición de modelos de difusión ha facilitado recientemente la generación de imágenes de alta calidad. Los modelos de difusión se perfeccionan con módulos temporales, lo que les permite sobresalir en la creación de vídeos atractivos. Además, la capacidad de generar animaciones de retratos realistas y dinámicas a partir de entradas de audio e imágenes estáticas tiene un inmenso potencial en varios dominios. Este enfoque innovador encuentra aplicaciones en la realidad virtual, los juegos y los medios digitales. Su impacto se extiende a la creación de contenido, la narración de historias y las experiencias de usuario personalizadas.

Sin embargo, existen desafíos importantes a la hora de producir animaciones visualmente cautivadoras y de alta calidad que mantengan la coherencia temporal. Estas complicaciones surgen de la necesidad de una coordinación intrincada de los movimientos de los labios, las expresiones faciales y las posiciones de la cabeza para crear efectos visualmente atractivos. Los métodos existentes a menudo no han logrado superar este desafío debido a su dependencia de generadores de capacidad limitada para la creación de contenido visual, como GAN, NeRF o decodificadores basados ​​en movimiento. Estas redes muestran capacidades de generalización limitadas y, a menudo, carecen de estabilidad para generar contenido de alta calidad.

Los investigadores de Tencent presentaron AniPortrait, un marco novedoso diseñado para generar retratos animados de alta calidad impulsados ​​por audio y una imagen de referencia. AniPortrait se divide en dos etapas distintas. En la primera etapa, los modelos basados ​​en transformadores extraen una secuencia de malla facial 3D y postura de la cabeza de la entrada de audio. Esta etapa puede capturar expresiones sutiles y movimientos de labios del audio. En la segunda etapa, se utiliza un modelo de difusión robusto a través de la integración de un módulo de movimiento que transforma la secuencia de puntos de referencia facial en un retrato animado fotorrealista y temporalmente consistente.

Los resultados experimentales demuestran el rendimiento superior de AniPortrait en la creación de animaciones con una naturalidad facial impresionante, poses variadas y una calidad visual excelente. Aprovechar las representaciones faciales en 3D como características intermedias ayuda a ganar flexibilidad y modificar estas características, mejorando la aplicabilidad del marco propuesto en dominios como el movimiento facial. Este marco consta de dos módulos: Audio2Lmk y Lmk2Video. Audio2Lmk está diseñado para extraer una secuencia de puntos de referencia que captura expresiones faciales y movimientos de labios intrincados a partir de la entrada de audio. Al mismo tiempo, Lmk2Video utiliza esta secuencia histórica para generar videos de retratos de alta calidad con estabilidad temporal.

En Audio2Lmk, se utiliza wav2vec previamente entrenado para extraer funciones de audio. Este modelo exhibe una fuerte generalización, identificando con precisión tanto la pronunciación como la entonación del audio. Además, la estructura de red de Lmk2Video está diseñada para inspirarse en AnimateAnyone, utilizando SD1.5 como columna vertebral e incorporando un módulo de movimiento temporal. De manera similar, se utiliza ReferenceNet, que se hace eco de la arquitectura de SD1.5, para extraer información de apariencia de la imagen de referencia e integrarla en la red troncal. Finalmente, se utilizan 4 GPU A100 para el entrenamiento del modelo, dedicando dos días a cada paso, y se emplea el optimizador AdamW, con una tasa de aprendizaje constante de 1e-5.

En conclusión, esta investigación presenta AniPortrait, un marco basado en modelos de difusión para animación de retratos. Este marco puede generar un video de retrato que presenta movimientos suaves de los labios y movimientos naturales de la cabeza. Sin embargo, obtener datos 3D a gran escala y de alta calidad es bastante caro. Por lo tanto, las expresiones faciales y las posturas de la cabeza en los vídeos de retratos generados no pueden escapar al efecto valle inquietante. Por lo tanto, el plan es predecir videos de retratos directamente a partir del audio para lograr resultados de generación más sorprendentes.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.