La IA generativa ha dado un gran salto en los últimos dos años gracias al lanzamiento exitoso de modelos de difusión a gran escala. Estos modelos son un tipo de modelo generativo que se puede utilizar para generar imágenes, texto y otros datos realistas.
Los modelos de difusión funcionan comenzando con una imagen o texto de ruido aleatorio y luego agregándole detalles gradualmente con el tiempo. Este proceso se llama difusión y es similar a cómo un objeto del mundo real se vuelve cada vez más detallado a medida que se forma. Por lo general, están capacitados en un gran conjunto de datos de imágenes o texto reales.
Por otro lado, la generación de vídeo también ha experimentado avances notables en los últimos años. Abarca la emocionante capacidad de generar contenido de video dinámico y realista por completo. Esta tecnología aprovecha el aprendizaje profundo y los modelos generativos para generar videos que van desde paisajes oníricos surrealistas hasta simulaciones realistas de nuestro mundo.
La capacidad de utilizar el poder del aprendizaje profundo para generar videos con un control preciso sobre su contenido, disposición espacial y evolución temporal es muy prometedora para una amplia gama de aplicaciones, desde entretenimiento hasta educación y más.
Históricamente, la investigación en este dominio se centró principalmente en señales visuales, dependiendo en gran medida de las imágenes del cuadro inicial para guiar la generación de video posterior. Sin embargo, este enfoque tenía sus limitaciones, particularmente a la hora de predecir la compleja dinámica temporal de los vídeos, incluidos los movimientos de la cámara y las intrincadas trayectorias de los objetos. Para superar estos desafíos, la investigación reciente se ha inclinado hacia la incorporación de descripciones textuales y datos de trayectoria como mecanismos de control adicionales. Si bien estos enfoques representaron avances significativos, tienen sus propias limitaciones.
reunámonos ArrastrarNUWA que aborda estas limitaciones.
ArrastrarNUWA es un modelo de generación de vídeo consciente de la trayectoria con control detallado. Integra a la perfección texto, imágenes e información de trayectoria para proporcionar una controlabilidad sólida y fácil de usar.
ArrastrarNUWA tiene una fórmula simple para generar videos de apariencia realista. Los tres pilares de esta fórmula son el control semántico, espacial y temporal. Estos controles se realizan con descripciones textuales, imágenes y trayectorias, respectivamente.
El control textual se realiza en forma de descripciones textuales. Esto inyecta significado y semántica a la generación de videos. Permite al modelo comprender y expresar la intención detrás de un video. Por ejemplo, puede ser la diferencia entre representar un pez del mundo real nadando y una pintura de un pez.
Para el control visual se utilizan imágenes. Las imágenes proporcionan contexto espacial y detalles, lo que ayuda a representar con precisión objetos y escenas en el vídeo. Sirven como un complemento crucial para las descripciones textuales, agregando profundidad y claridad al contenido generado.
Todas estas son cosas familiares para nosotros, y la verdadera diferencia ArrastrarNUWA Lo que hace se puede ver en el último componente: el control de trayectoria. ArrastrarNUWA utiliza control de trayectoria de dominio abierto. Mientras que los modelos anteriores luchaban con la complejidad de la trayectoria, DragNUWA emplea un Trajectory Sampler (TS), una fusión multiescala (MF) y un entrenamiento adaptativo (AT) para afrontar este desafío de frente. Esta innovación permite la generación de videos con trayectorias intrincadas y de dominio abierto, movimientos de cámara realistas e interacciones complejas con objetos.
ArrastrarNUWA ofrece una solución integral que unifica tres mecanismos de control esenciales: texto, imagen y trayectoria. Esta integración brinda a los usuarios un control preciso e intuitivo sobre el contenido de video. Reimagina el control de trayectoria en la generación de video. Sus estrategias TS, MF y AT permiten el control de dominio abierto de trayectorias arbitrarias, lo que lo hace adecuado para escenarios de video complejos y diversos.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Ekrem Çetinkaya recibió su B.Sc. en 2018, y M.Sc. en 2019 de la Universidad Ozyegin, Estambul, Türkiye. Escribió su M.Sc. Tesis sobre la eliminación de ruido de imágenes utilizando redes convolucionales profundas. Recibió su doctorado. Licenciado en 2023 por la Universidad de Klagenfurt, Austria, con su disertación titulada “Mejoras en la codificación de vídeo para la transmisión adaptativa HTTP mediante aprendizaje automático”. Sus intereses de investigación incluyen el aprendizaje profundo, la visión por computadora, la codificación de video y las redes multimedia.