Investigadores de la Universidad de Nueva York y la Universidad de Maryland presentan un marco de inteligencia artificial para comprender y extraer descriptores de estilo de imágenes

El arte digital se cruza perfectamente con la innovación tecnológica, y los modelos generativos se han hecho un hueco, transformando la forma en que los diseñadores gráficos y artistas conciben y realizan sus visiones creativas. Entre ellos, se destacan modelos como Stable Diffusion y DALL-E, capaces de destilar grandes cantidades de imágenes en línea en distintos estilos artísticos. Esta capacidad, aunque notable, presenta un desafío complejo: discernir si una obra de arte generada simplemente imita el estilo de obras existentes o se presenta como una creación única.

Investigadores de la Universidad de Nueva York, el Instituto ELLIS y la Universidad de Maryland han profundizado en los matices de la replicación de estilos mediante modelos generativos. Su Descriptores de estilo contrastivo (CSD) El modelo analiza los estilos artísticos de las imágenes enfatizando los atributos estilísticos sobre los semánticos. Desarrollado mediante aprendizaje autosupervisado y refinado con un conjunto de datos único, LAION-Styles, el modelo identifica y cuantifica los matices estilísticos entre imágenes. Su estudio también condujo al desarrollo de un marco destinado a analizar y comprender el ADN estilístico de las imágenes. A diferencia de métodos anteriores que priorizaban la similitud semántica, este enfoque se distingue por su enfoque en los atributos subjetivos del estilo, abarcando elementos como paletas de colores, textura y forma.

El principal punto de esta investigación es la construcción de un conjunto de datos especializado, LAION-Styles, diseñado para cerrar la brecha entre la naturaleza subjetiva del estilo y los objetivos objetivos del estudio. El conjunto de datos es la base de un esquema de aprendizaje contrastivo de múltiples etiquetas que cuantifica meticulosamente las correlaciones estilísticas entre las imágenes generadas y sus posibles inspiraciones. Esta metodología captura la esencia del estilo tal como lo perciben los humanos, destacando la complejidad y la subjetividad inherentes a los esfuerzos artísticos.

La aplicación práctica revela ideas intrigantes sobre la capacidad del modelo de Difusión Estable para replicar los estilos de varios artistas. La investigación revela un espectro de fidelidad en la replicación de estilos, que va desde el mimetismo casi perfecto hasta interpretaciones más matizadas. Esta variabilidad subraya el papel fundamental del entrenamiento de conjuntos de datos en la configuración del resultado de los modelos generativos, lo que sugiere una preferencia por ciertos estilos basados ​​en su representación dentro del conjunto de datos.

La investigación también arroja luz sobre los aspectos cuantitativos de la replicación de estilos. Por ejemplo, la aplicación de la metodología a Stable Diffusion resalta cómo el modelo puntúa en métricas de similitud de estilo, ofreciendo una vista granular de sus capacidades y limitaciones. Estos hallazgos son fundamentales no sólo para los artistas que vigilan la integridad de sus firmas estilísticas, sino también para los usuarios que buscan comprender los orígenes y la autenticidad de las obras de arte que generan.

El marco impulsa una reevaluación de cómo los modelos generativos interactúan con diversos estilos. Postula que estos modelos pueden exhibir preferencias por ciertos estilos sobre otros, influenciados en gran medida por el dominio de esos estilos en sus datos de entrenamiento. Este fenómeno plantea preguntas pertinentes sobre la inclusión y diversidad de estilos que los modelos generativos pueden emular fielmente, destacando la interacción matizada entre los datos de entrada y la producción artística.

En conclusión, el estudio aborda un desafío fundamental del arte generativo: cuantificar hasta qué punto modelos como Stable Diffusion replican los estilos de entrenamiento de imágenes de datos. Al diseñar un marco novedoso que enfatiza los elementos estilísticos sobre los semánticos, basado en el conjunto de datos LAION-Styles y un sofisticado esquema de aprendizaje contrastivo de múltiples etiquetas, los investigadores ofrecen información sobre la mecánica de la replicación de estilos. Sus hallazgos cuantifican las similitudes de estilo con notable precisión y resaltan la influencia crítica de los conjuntos de datos de entrenamiento en los resultados de los modelos generativos.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.