Cuando las imágenes de alta calidad producidas por IA generativa comenzaron a aparecer por primera vez en 2022, tuvieron un factor sorpresa innegable. El proceso creativo implicó poco más que ingresar una descripción de texto y esperar a que el sistema de inteligencia artificial produjera una imagen relevante.
En ese momento, una pregunta obvia era cuándo se pondrían al día los videos generados por IA. De hecho, desde entonces varios grupos han presentado sistemas de inteligencia artificial que generan videos automáticamente, pero siempre con límites importantes en cuanto a su duración, el tipo de movimiento realista que podrían producir y su calidad general.
Una forma de solucionar estos problemas es con la fuerza bruta. Pero esta potencia informática aumenta significativamente los costos. Por eso se ha continuado la búsqueda de enfoques más eficientes y capaces.
Luz Fantástica
Ahora Google dice que ha desarrollado una técnica que mejora dramáticamente la eficiencia de la síntesis de video. Omer Bar-Tal y sus colegas de Google dicen que su nuevo sistema, llamado Lumiere, produce videos que retratan movimientos realistas, diversos y coherentes.
“Demostramos resultados de generación de video de última generación y mostramos cómo adaptar fácilmente Lumiere a una gran cantidad de tareas de creación de contenido de video, incluido el video inpainting, la generación de imagen a video o la generación de videos estilizados que cumplan con un estilo determinado. imagen”, dicen.
Un enfoque común para la síntesis de vídeo con IA es generar primero varios fotogramas clave en una secuencia de vídeo y luego utilizar estas imágenes para generar los fotogramas que faltan en el medio.
Dividir la tarea de esta manera tiene la ventaja de simplificar los requisitos computacionales, pero también tiene desventajas. En particular, estos sistemas tienen dificultades para representar el movimiento rápido que tiene lugar entre los fotogramas clave.
Bar-Tal y compañía han ideado un enfoque diferente que sintetiza todo el vídeo al mismo tiempo. Lo hacen entrenando un sistema de inteligencia artificial para tratar las dimensiones de tiempo y espacio de la misma manera. Este enfoque espacio-temporal permite a la IA generar toda la salida de vídeo al mismo tiempo.
Esto contrasta marcadamente con esfuerzos anteriores que se centran únicamente en cambios espaciales manteniendo una resolución temporal fija. La representación espacio-temporal de Google es significativamente más compacta y, por tanto, más eficiente desde el punto de vista computacional. “Sorprendentemente, los modelos anteriores de conversión de texto a vídeo han pasado por alto esta elección de diseño”, afirman Bar-Tal y compañía.
Una parte clave de este proceso es una técnica de inteligencia artificial muy conocida llamada difusión, que se utiliza ampliamente para producir imágenes individuales. El sistema de IA comienza con un marco compuesto enteramente de ruido, que modifica progresivamente para que coincida con una distribución de datos que ha aprendido, ya sea asociada con un gato, un perro o un astronauta que anda en bicicleta en Marte.
Lumière funciona de la misma manera. Pero en lugar de producir una única imagen que coincida con una distribución de datos específica, crea una secuencia de hasta 80 imágenes o, más precisamente, una representación de estas imágenes en el espacio-tiempo.
Luego, Ai modifica esta representación para que coincida con una distribución de datos que el sistema ha aprendido de su entrenamiento en millones de horas de secuencias de video. Luego descomprime la representación del espacio-tiempo en un vídeo normal.
El resultado es una secuencia de vídeo de cinco segundos, una duración que según Google es mayor que la duración promedio de la toma en la mayoría de los medios.
Los resultados son impresionantes. Dada una descripción de texto como “Un panda tocando un ukelele en casa” o “Volando a través de un templo en ruinas, épico, niebla”, Lumiere produce una secuencia de video de alta calidad que muestra, bueno, precisamente estas cosas.
También puede comenzar con una imagen y animarla a pedido. Bar-Tal y compañía utilizan el famoso cuadro de Vermeer La chica del pendiente de perla y haz que Lumiere lo anime para mostrar a la niña guiñando un ojo y sonriendo.
Dale a Lumiere una imagen de referencia, como la de Van Gogh. Noche estrellada y producirá un vídeo con el mismo estilo. Dale un vídeo de, por ejemplo, una niña corriendo, y podrá modificarlo para que la niña parezca como si estuviera hecha de flores o bloques de madera apilados. Bar-Tal y sus compañeros publican numerosos ejemplos de Las capacidades de Lumiere en línea.
Se trata de un trabajo impresionante y plantea la pregunta obvia de cuándo estará disponible para los consumidores comunes y corrientes y a qué costo. Google no da ninguna respuesta por el momento.
Preocupación por los deepfakes
Pero el equipo insinúa problemas potenciales que deberán abordarse a su debido tiempo. No es difícil imaginar cómo actores maliciosos podrían usar esa tecnología para crear deepfakes a una escala épica, y Bar-Tal y compañía están claramente preocupados.
“Existe el riesgo de uso indebido al crear contenido falso o dañino con nuestra tecnología, y creemos que es crucial desarrollar y aplicar herramientas para detectar sesgos y casos de uso maliciosos para garantizar un uso seguro y justo”, dicen.
No tienen tan claro quién está, o debería estar, desarrollando dicha tecnología. Es probable que este tipo de esfuerzo requiera algún tipo de incidente del mundo real para forzar el problema.
Pero sin este tipo de controles, los efectos ya se están extendiendo. Las elecciones de este año en Estados Unidos, el Reino Unido y la democracia más grande del mundo, la India, ya se están convirtiendo en un campo de pruebas sobre la forma en que se pueden explotar estas tecnologías.
Aún no se ha determinado el papel que desempeñarán Lumiere y otros sistemas similares.
Ref: Lumiere: un modelo de difusión espacio-temporal para la generación de vídeo: arxiv.org/abs/2401.12945