Investigadores de la UNC-Chapel Hill presentan la guía de región contrastiva (CRG): un método de IA de guía sin capacitación que permite que los modelos VLM de visión y lenguaje de código abierto respondan a indicaciones visuales

Los avances recientes en los grandes modelos de lenguaje visual (VLM) se han mostrado prometedores a la hora de abordar tareas multimodales al combinar las capacidades de razonamiento de los modelos de lenguaje grande (LLM) con codificadores visuales como ViT. Sin embargo, a pesar de su buen desempeño en tareas que involucran imágenes completas, como la respuesta o descripción de preguntas sobre imágenes, estos modelos a menudo necesitan ayuda con la base regional detallada, las relaciones espaciales entre objetos y el razonamiento compositivo.

Esta limitación dificulta su capacidad para seguir indicaciones visuales de forma eficaz, donde los marcadores visibles, como cuadros delimitadores, les ayudan a centrarse en regiones importantes. Mejorar la capacidad de seguimiento de indicaciones visuales de los modelos tiene el potencial de mejorar el rendimiento en varios dominios del lenguaje visual, incluido el razonamiento espacial y la comprensión de expresiones de referencia.

Para superar estas limitaciones, los investigadores de la UNC Chapel Hill han introducido un método novedoso sin entrenamiento llamado GUÍA DE REGIÓN CONTRASIVA (CRG). Esta estrategia innovadora aprovecha la orientación sin clasificadores para ayudar a los VLM a centrarse en regiones específicas sin capacitación adicional, lo que reduce los sesgos y mejora el rendimiento del modelo.

CRG tiene como objetivo reducir el sesgo del modelo hacia ciertas respuestas factorizando su respuesta sin evidencia visual de regiones clave. Al ocultar objetos relevantes en la imagen y examinar la respuesta del modelo, CRG revela sesgos y corrige la distribución de las respuestas, lo que lleva a predicciones más precisas. A diferencia de otros métodos que dependen de una capacitación costosa o de modelos propietarios, CRG está diseñado para ser compatible con varios modelos existentes y solo requiere indicaciones visuales o acceso a un módulo de detección de objetos para proponer cuadros delimitadores, lo que lo convierte en una solución práctica y accesible.

La eficacia de CRG se evalúa en varios conjuntos de datos y dominios, incluido el seguimiento de indicaciones visuales, el razonamiento espacial, la generalización compositiva y las tareas de generación de texto a imagen. Los resultados demuestran mejoras significativas en el rendimiento del modelo, destacando la capacidad de CRG para mejorar la comprensión y el razonamiento visual. Un análisis detallado de los componentes de CRG revela su eficacia para enmascarar estrategias y su impacto en la interpretabilidad del modelo. Además, la configuración predeterminada de CRG logra consistentemente un alto rendimiento en diferentes tareas, enfatizando su solidez y aplicabilidad en escenarios del mundo real.

En general, CRG presenta un enfoque prometedor para mejorar la base regional detallada y mejorar la interpretabilidad del modelo en modelos de visión y lenguaje. Su compatibilidad con los modelos existentes y su eficacia en diversas tareas lo convierten en una herramienta valiosa para mejorar la comprensión multimodal y las capacidades de razonamiento en los sistemas de IA. En aplicaciones como asistentes virtuales o sistemas autónomos, donde la comprensión multimodal es esencial para una comunicación y toma de decisiones efectivas, las capacidades mejoradas proporcionadas por CRG pueden conducir a interacciones más naturales y eficientes entre usuarios y máquinas. Por lo tanto, CRG representa un paso significativo para cerrar la brecha entre el lenguaje y la visión, allanando el camino para sistemas de IA más sofisticados y conscientes del contexto e inspirando nuevas posibilidades.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….


Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.