El uso de herramientas de diseño avanzadas ha provocado transformaciones revolucionarias en los campos del diseño visual y multimedia. Como avance importante en el campo de la modificación de imágenes, la edición de imágenes basada en instrucciones ha aumentado el control y la flexibilidad del proceso. Se utilizan comandos de lenguaje natural para cambiar fotografías, eliminando la necesidad de explicaciones detalladas o máscaras particulares para dirigir el proceso de edición.
Sin embargo, un problema típico ocurre cuando las instrucciones humanas son demasiado breves para que los sistemas actuales las comprendan y las ejecuten correctamente. Los modelos multimodales de lenguaje grande (MLLM) entran en escena para abordar este desafío. Los MLLM demuestran impresionantes habilidades de comprensión intermodal, combinando fácilmente datos textuales y visuales. Estos modelos funcionan excepcionalmente bien a la hora de producir respuestas visualmente informadas y lingüísticamente precisas.
En su investigación reciente, un equipo de investigadores de UC Santa Barbara y Apple exploraron cómo los MLLM pueden revolucionar la edición de imágenes basada en instrucciones, lo que dio como resultado la creación de la edición de imágenes guiada por modelos de lenguaje grande multimodal (MGIE). MGIE opera aprendiendo a extraer instrucciones expresivas de la entrada humana, dando una dirección clara para el proceso de alteración de la imagen que sigue.
A través de una formación integral, el modelo incorpora esta comprensión en el proceso de edición, capturando la creatividad visual inherente a estas instrucciones. Al integrar MLLM, MGIE comprende e interpreta instrucciones breves pero contextualmente ricas, superando las limitaciones impuestas por instrucciones humanas que son demasiado breves.
Para determinar la eficacia de MGIE, el equipo ha llevado a cabo un análisis exhaustivo que abarca varios aspectos de la edición de imágenes. Esto implicó probar su rendimiento en tareas de edición local, optimización global de fotografías y ajustes de estilo Photoshop. Los resultados del experimento resaltaron la importancia de las instrucciones expresivas para la modificación de imágenes basada en instrucciones.
MGIE mostró una mejora significativa tanto en las medidas automatizadas como en la evaluación humana mediante la utilización de MLLM. Esta mejora se logra preservando al mismo tiempo la eficiencia de la inferencia competitiva, lo que garantiza que el modelo sea útil para aplicaciones prácticas del mundo real, además de ser eficaz.
El equipo ha resumido sus principales contribuciones de la siguiente manera.
- Se ha introducido un enfoque único llamado MGIE, que incluye el aprendizaje de un modelo de edición y modelos de lenguaje grande multimodal (MLLM) simultáneamente.
- Se han agregado instrucciones expresivas que reconocen señales visuales para proporcionar una dirección clara durante el proceso de edición de imágenes.
- Se han examinado numerosos aspectos de la edición de imágenes, como la edición local, la optimización global de fotografías y la modificación del estilo de Photoshop.
- La eficacia de MGIE se ha evaluado mediante comparaciones cualitativas, incluidas varias funciones de edición. Los efectos de las instrucciones expresivas que reconocen señales visuales en la edición de imágenes se han evaluado mediante pruebas exhaustivas.
En conclusión, la edición de imágenes basada en instrucciones, posible gracias a los MLLM, representa un avance sustancial en la búsqueda de una alteración de imágenes más comprensible y eficaz. Como ejemplo concreto de esto, MGIE destaca cómo se pueden utilizar instrucciones expresivas para mejorar la calidad general y la experiencia del usuario en los trabajos de edición de imágenes. Los resultados del estudio han enfatizado la importancia de estas instrucciones al mostrar que MGIE mejora el rendimiento de edición en una variedad de trabajos de edición.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.