Screenshot 2023 11 16 At 9.21.53 Am.png

Los grandes modelos multimodales (LMM), impulsados ​​por la ola generativa de IA, se han vuelto cruciales, cerrando la brecha entre el lenguaje y las tareas visuales. LLaVa, miniGPT4, Otter, InstructBLIP, LLaMA-Adapter v2 y mPLUGOWL son ejemplos de versiones anteriores que muestran respuestas textuales eficientes según las fotografías de entrada. A pesar de su sofisticación, estos modelos deben basar sus decisiones en el entorno visual. Aplicaciones avanzadas como la alteración de contenido localizado, agentes incorporados interactivos y una comprensión visual profunda requieren este anclaje. Un trabajo reciente ha comenzado a analizar zonas definidas por el usuario descritas utilizando cuadros delimitadores en modelos para superar esta restricción.

Aunque la generación de respuestas de texto fundamentadas ha sido objeto de esfuerzos recientes, no ofrecen bases precisas a nivel de píxeles. Además, se han realizado intentos de anclar descripciones textuales en fotografías naturales en la literatura de segmentación relevante. Sin embargo, sólo pueden anclar un único elemento. No pueden mantener conversaciones reales y coherentes, lo que limita su utilidad en trabajos interactivos que requieren una comprensión profunda del material escrito y visual. Presentan Grounding LMM (GLaMM), que al mismo tiempo brinda conocimiento profundo de la región, conexiones a tierra a nivel de píxeles y habilidades de conversación a través de una estrategia de capacitación de un extremo a otro (Fig. 1) para superar estas deficiencias de trabajos anteriores.

Figura 1: Generación de conversaciones fundamentadas basadas en GLaMM

Las respuestas en lenguaje natural basadas en el nivel de píxel de la imagen de entrada se pueden producir utilizando el modelo conversacional multimodal. Además de los atributos de los objetos (casa blanca, tejado rojo, césped bien cuidado) y las relaciones de los objetos (la hierba que llega hasta la acera, el cielo sobre el edificio), en las puestas a tierra de salida se representan distintos niveles de granularidad, como por ejemplo cosas (edificio, árbol). ), cosas (hierba, cielo, pavimento) y partes de objetos (techo como subparte del edificio).

Proporcionan el trabajo único de Grounded Conversation Generation (GCG) para abordar la escasez de estándares para conversaciones visualmente fundamentadas. El trabajo de GCG tiene como objetivo generar máscaras de segmentación de objetos intercaladas con respuestas en lenguaje natural. Este difícil problema combina varias tareas de visión por computadora que generalmente se manejan por separado, como la conexión a tierra de frases, subtítulos a nivel de imagen y región, segmentación de expresiones de referencia e interacciones visión-lenguaje. Como resultado, su modelo combinado y el conjunto de datos de preentrenamiento sugerido se pueden utilizar con éxito para varias tareas posteriores (como control de calidad de estilo conversacional, subtítulos a nivel regional, subtítulos de imágenes y segmentación de expresiones).

Investigadores de la Universidad de IA Mohamed bin Zayed, la Universidad Nacional de Australia, la Universidad Aalto, la Universidad Carnegie Mellon, la Universidad de California – Merced, la Universidad de Linköping y Google Research presentan GLaMM, el primer modelo creado especialmente para esta difícil tarea. A diferencia de esfuerzos anteriores, GLaMM proporciona una experiencia de usuario variada al trabajar con sugerencias textuales y visuales y proporcionar resultados visualmente fundamentados. La tediosa tarea de recopilar extensas anotaciones para áreas de imágenes es necesaria para una comprensión detallada a nivel regional. Sugieren un flujo de trabajo automatizado para anotar el extenso conjunto de datos Grounding-anything (GranD) para reducir el proceso de etiquetado manual que requiere mucha mano de obra. GranD utiliza un proceso computarizado con ciertos procesos de verificación y tiene 7,5 millones de ideas distintas ancladas en 810 millones de áreas, cada una con una máscara de segmentación.

El conjunto de datos anota fotografías SAM utilizando un método jerárquico de varios niveles, utilizando modelos de lenguaje y visión de vanguardia para mejorar la calidad de la anotación. GranD redefine la exhaustividad con sus 11 millones de fotografías y cualidades, como 33 millones de subtítulos fundamentados y 84 millones de términos de referencia. Ofrecen el primer conjunto de datos de alta calidad para conversaciones fundamentadas y el conjunto de datos GCG generado automáticamente. Este conjunto de datos se creó reutilizando los conjuntos de datos anotados manualmente disponibles previamente para el GCG mediante el aprendizaje en contexto GPT-4. Designan los datos generados automáticamente a gran escala como GranDp y el conjunto de datos de alta calidad como GranDf, lo que indica que es adecuado para un ajuste fino. GLaMM se entrena en fases de ajuste previo al entrenamiento utilizando GranDf y GranDp.

En conclusión, su investigación tiene tres contribuciones principales:

• Introducción al modelo multimodal grande de conexión a tierra (GLaMM): Este es el primer modelo de su tipo que puede proporcionar respuestas en lenguaje natural que se combinan suavemente con máscaras de segmentación de objetos. A diferencia de los modelos actuales, GLaMM admite señales visuales y textuales opcionales, lo que permite una mejor participación multimodal del usuario.

• Nuevas tareas y criterios de evaluación: reconociendo la ausencia de estándares establecidos para los diálogos visualmente fundamentados, presentaron un trabajo novedoso llamado Grounded Conversation Generation (GCG). Además, cierran una gran brecha en la literatura al introducir un proceso de evaluación extenso para evaluar el desempeño de los modelos en este escenario único que integra varias tareas separadas.

• Conjunto de datos Grounding-anything (GranD): Desarrollan GranD, un conjunto de datos masivamente anotado, para ayudar en la capacitación y evaluación de modelos. Fue creado utilizando un proceso de anotación automática y estándares de verificación, y tiene 7,5 millones de ideas distintas basadas en 810 millones de ubicaciones. Además, reutilizan conjuntos de datos de código abierto existentes para crear GranDf, un conjunto de datos de alta calidad creado específicamente para el ajuste de la tarea de GCG.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.