Este artículo de IA de UC Berkeley presenta Tulip: un modelo de aprendizaje contrastante unificado para la visión de alta fidelidad y la comprensión del lenguaje

Los avances recientes en la inteligencia artificial han mejorado significativamente la forma en que las máquinas aprenden a asociar el contenido visual con el lenguaje. Los modelos de aprendizaje contrastantes han sido fundamentales en esta transformación, particularmente aquellos que alinean imágenes y texto a través de un espacio de incrustación compartido. Estos modelos son centrales para la clasificación de disparo cero, la recuperación de texto de imagen y el razonamiento multimodal. Sin embargo, si bien estas herramientas han superado los límites para alinear los conceptos de alto nivel entre las modalidades, aún enfrentan desafíos en el procesamiento de información visual más matizada, espacialmente precisa y detallada.

Uno de los principales desafíos no resueltos radica en equilibrar la comprensión semántica con el reconocimiento visual de alta resolución. La mayoría de los modelos contrastantes existentes priorizan la amplia alineación semántica sobre la fidelidad espacial, lo que hace que tengan un rendimiento inferior en tareas que requieren una comprensión del recuento de objetos, la profundidad, las texturas de grano fino o las ubicaciones de objetos precisos. Estas limitaciones surgen de cómo se capacitan los modelos, a menudo en conjuntos de datos a gran escala y etiquetados sueltos, y estrategias de optimización que favorecen la coincidencia de características globales sobre análisis visual detallado. La ausencia de representaciones espacialmente conscientes del rendimiento en tareas de visión más granular.

Los modelos disponibles como Clip, Align y Siglip han logrado un fuerte rendimiento en muchos puntos de referencia de clasificación y recuperación. Estos modelos aprovechan grandes conjuntos de datos para que coincidan con los pares de texto de imagen de manera contrastante, acercando los ejemplos semánticamente similares en el espacio de incrustación. Sin embargo, este enfoque a menudo pasa por alto representaciones detalladas cruciales para tareas especializadas. Por ejemplo, los modelos entrenados con solo pares de texto de imagen pueden describir con éxito lo que está presente, pero lucha en tareas como contar objetos distintos o distinguir variaciones sutiles entre elementos similares. Los modelos centrados en la visión como Dino o MAE ofrecen una fuerte extracción de características, pero carecen de interpretabilidad del lenguaje, lo que los hace menos adecuados para aplicaciones multimodales.

Investigadores de la Universidad de California, Berkeley, introdujeron un nuevo modelo llamado Tulip (hacia el preado de imágenes de lenguaje unificado) para abordar estas limitaciones. Diseñado como un reemplazo de enchufe de código abierto para los modelos existentes tipo clip, Tulip mejora la integración de la alineación semántica con la representación visual de alta fidelidad. La innovación combina varias técnicas de aprendizaje contrastantes con el aumento generativo de datos y la regularización basada en la reconstrucción. Está diseñado para preservar la comprensión de alto nivel y los detalles de grano fino, cerrando la brecha entre la comprensión del lenguaje y el análisis visual detallado.

La metodología de Tulip integra tres estrategias de aprendizaje contrastante: imagen de imagen, texto de imagen y aprendizaje contrastante de texto de texto. Este marco unificado está impulsado por un módulo llamado GECO (aumento generativo de la vista contrastante), que utiliza grandes modelos generativos para crear aumentos desafiantes de imágenes y texto. Estos incluyen variaciones semánticamente idénticas o alteradas sutilmente, generando pares de contraste positivos y negativos. El codificador de imagen aprovecha una arquitectura del transformador de visión con una pérdida de reconstrucción de autoencoder enmascarada, mientras que el codificador de texto utiliza modelos de lenguaje para parafrasear el contenido. Los objetivos de regularización alientan al modelo a retener detalles esenciales como textura, diseño y color junto con la semántica.

Los puntos de referencia de rendimiento demuestran que Tulip logra mejoras notables en varias tareas. En la clasificación de ImageNet-1K Zero-Shot, Tulip alcanza una precisión de hasta un 89.6%, superando a SIGLIP en 2-3 puntos porcentuales en varios conjuntos de datos. En la clasificación de pocos disparos, casi duplica el rendimiento sobre SIGLIP en RXRX1, aumentando la precisión del 4.6% al 9.8%. En MMVP, un punto de referencia en el lenguaje de la visión, Tulip mejora el rendimiento sobre SIGLIP en más de 3 ×. También supera a los modelos competitivos en el punto de referencia de WinoGround, convirtiéndose en el primer modelo CIT en lograr resultados mejores que aleatorios en tareas de razonamiento grupal. Las evaluaciones de parpadeo conducen a tareas como razonamiento espacial y localización de objetos, rivalizan o superan algunos sistemas basados ​​en GPT-4.

Esta investigación proporciona una solución convincente para una compensación de aprendizaje multimodal fundamental: lograr detalles visuales y coherencia semántica. El equipo de investigación ha demostrado que la introducción de aumentos generativos y técnicas de contraste de visión múltiple en el prisión previa aumenta significativamente la capacidad del modelo para un razonamiento visual y lingüístico complejo. Tulip establece una nueva dirección para futuros sistemas en idioma de visión que manejan una comprensión amplia y de grano fino en un modelo unificado.


Verificar el Papel, Página del proyecto y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.