Desmitificando la inteligencia artificial generativa: una inmersión en profundidad en los modelos de difusión y la evolución de la informática visual

Para combinar imágenes generadas por computadora o deducir las características físicas de una escena a partir de imágenes, gráficos por computadora y visión por computadora en 3D, los grupos han estado trabajando para crear modelos físicamente realistas durante décadas. Varias industrias, incluidas las de efectos visuales, juegos, procesamiento de imágenes y videos, diseño asistido por computadora, realidad virtual y aumentada, visualización de datos, robótica, vehículos autónomos y sensores remotos, entre otras, se basan en esta metodología, que incluye renderizado, simulación. , procesamiento de geometría y fotogrametría. Con el surgimiento de la inteligencia artificial generativa (IA), ha surgido una forma completamente nueva de pensar sobre la informática visual. Con solo una indicación escrita o instrucción humana de alto nivel como entrada, los sistemas de IA generativa permiten la creación y manipulación de fotografías, películas u objetos 3D fotorrealistas y con estilo.

Estas tecnologías automatizan varias tareas de computación visual que consumen mucho tiempo y que antes solo estaban disponibles para especialistas con una profunda experiencia en el tema. Los modelos básicos para la computación visual, como Stable Diffusion, Imagen, Midjourney o DALL-E 2 y DALL-E 3, han abierto los poderes incomparables de la IA generativa. Estos modelos lo han “visto todo” después de haber sido entrenados en cientos de millones a miles de millones de pares de texto-imagen, y son increíblemente vastos, con solo unos pocos miles de millones de parámetros que se pueden aprender. Estos modelos fueron la base de las herramientas de IA generativa mencionadas anteriormente y fueron entrenados en una enorme nube de potentes unidades de procesamiento de gráficos (GPU).

Los modelos de difusión basados ​​en redes neuronales convolucionales (CNN) utilizados frecuentemente para generar imágenes, vídeos y objetos 3D integran texto calculado mediante arquitecturas basadas en transformadores, como CLIP, de forma multimodal. Todavía hay espacio para que la comunidad académica haga contribuciones significativas al desarrollo de estas herramientas para gráficos y visión, a pesar de que actores de la industria bien financiados han utilizado una cantidad significativa de recursos para desarrollar y entrenar modelos básicos para la generación de imágenes 2D. Por ejemplo, es necesario aclarar cómo adaptar los modelos actuales de base de imágenes para su uso en otros dominios de dimensiones superiores, como el vídeo y la creación de escenas 3D.

Esto se debe principalmente a la necesidad de tipos más específicos de datos de entrenamiento. Por ejemplo, hay muchos más ejemplos de fotografías 2D genéricas y de baja calidad en la web que de objetos o escenarios 3D variados y de alta calidad. Además, no es evidente de inmediato escalar los sistemas de creación de imágenes 2D para acomodar dimensiones mayores, según sea necesario para videos, escenas 3D o síntesis de escenas consistentes con múltiples vistas 4D. Otro ejemplo de una limitación actual es la computación: aunque una enorme cantidad de datos de vídeo (sin etiquetar) está disponible en la web, las arquitecturas de red actuales suelen ser demasiado ineficientes para entrenarse en un período de tiempo razonable o con una cantidad razonable de recursos informáticos. . Esto da como resultado que los modelos de difusión sean bastante lentos en el momento de la inferencia. Esto se debe al gran tamaño de sus redes y su naturaleza iterativa.

Figura 1: En este artículo de vanguardia se tratan la teoría y la aplicación de modelos de difusión para la computación visual. Recientemente, estos modelos se han convertido en la norma aceptada para crear y modificar imágenes, vídeos y objetos en 3D y 4D.

A pesar de los problemas no resueltos, el número de modelos de difusión para computación visual ha aumentado dramáticamente en el último año (ver ejemplos ilustrativos en la Fig. 1). Los objetivos de este informe de estado del arte (STAR) desarrollado por investigadores de múltiples universidades son ofrecer una revisión organizada de las numerosas publicaciones recientes centradas en aplicaciones de modelos de difusión en computación visual, para enseñar los principios de los modelos de difusión, e identificar las cuestiones pendientes.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.