Screenshot 2024 06 02 At 9.35.00 Pm.png

El aprendizaje de representación de visión y lenguaje (VL) es un campo en evolución centrado en la integración de información visual y textual para mejorar el rendimiento de los modelos de aprendizaje automático en una variedad de tareas. Esta integración permite que los modelos comprendan y procesen imágenes y texto simultáneamente, mejorando resultados como los subtítulos de imágenes, la respuesta visual a preguntas (VQA) y la recuperación de texto de imagen.

Un desafío importante en el aprendizaje de la representación VL es alinear y fusionar efectivamente información de modalidades visuales y textuales. Los métodos tradicionales suelen procesar datos visuales y textuales por separado antes de combinarlos, lo que puede dar como resultado interacciones incompletas o subóptimas entre las modalidades. Esta limitación dificulta la capacidad de los modelos para utilizar plenamente la rica información semántica presente en datos visuales y textuales, afectando así su rendimiento y adaptabilidad a diferentes tareas.

El trabajo existente incluye codificadores unimodales que procesan datos visuales y textuales por separado antes de combinarlos, lo que a menudo conduce a interacciones intermodales incompletas. Modelos como METER y ALBEF utilizan este enfoque, pero necesitan ayuda para explotar plenamente la riqueza semántica de todas las modalidades. ALIGN y marcos similares integran datos visuales y textuales en etapas posteriores, lo que puede dificultar la alineación y fusión integral de la información. Si bien son efectivos hasta cierto punto, estos métodos necesitan ayuda para lograr un rendimiento óptimo debido a su manejo separado de representaciones visuales y textuales.

Investigadores de Microsoft y Google han presentado BRIDGETOWER, un novedoso modelo basado en transformador diseñado para mejorar la alineación y fusión intermodal. BRIDGETOWER incorpora múltiples capas puente que conectan las capas superiores de los codificadores unimodales con cada capa del codificador multimodal. Este diseño innovador permite una alineación ascendente más efectiva de representaciones visuales y textuales, mejorando la capacidad del modelo para combinar estos tipos de datos sin problemas.

BRIDGETOWER emplea capas puente para integrar información visual y textual en diferentes niveles semánticos, mejorando la capacidad del codificador multimodal para combinar estos tipos de datos de manera efectiva. Estas capas puente utilizan una función LayerNorm para fusionar entradas de codificadores unimodales, lo que permite interacciones más matizadas y detalladas entre las capas del modelo. El método aprovecha codificadores unimodales previamente entrenados e introduce múltiples capas de puente para conectar estos codificadores con el codificador multimodal. Este enfoque facilita una alineación y fusión intermodal ascendente entre representaciones visuales y textuales de diferentes niveles semánticos, lo que permite una interacción intermodal más eficaz e informativa en cada capa del codificador.

El rendimiento de BRIDGETOWER se ha evaluado exhaustivamente en diversas tareas de visión y lenguaje y los resultados han sido notables. En el conjunto de datos MSCOCO, BRIDGETOWER logró un RSUM del 498,9 %, superando al anterior modelo de última generación, METER, en un 2,8 %. Para la tarea de recuperación de imágenes, BRIDGETOWER obtuvo una puntuación del 62,4 % en IR@1, superando significativamente a METER en un 5,3 %. También superó a los modelos ALIGN y ALBEF, que fueron entrenados previamente con conjuntos de datos mucho más grandes. En cuanto a la recuperación de texto, BRIDGETOWER logró un 75,0% para TR@1, que es ligeramente inferior a METER en un 1,2%. En el conjunto estándar de prueba VQAv2, BRIDGETOWER logró una precisión del 78,73 %, superando a METER en un 1,09 % con los mismos datos previos al entrenamiento y parámetros adicionales y costos computacionales casi insignificantes. Al ampliar aún más el modelo, BRIDGETOWER logró una precisión del 81,15 % en el conjunto estándar de prueba VQAv2, superando a los modelos previamente entrenados en conjuntos de datos significativamente más grandes.

En conclusión, la investigación presenta BRIDGETOWER, un modelo novedoso diseñado para mejorar las tareas de visión y lenguaje mediante la integración de múltiples capas puente que conectan codificadores unimodales y transmodales. Al permitir una alineación y fusión efectiva de datos visuales y textuales, BRIDGETOWER supera a los modelos existentes como METER en diversas tareas, como la recuperación de imágenes y la respuesta visual a preguntas. La capacidad del modelo para lograr un rendimiento de última generación con un coste computacional adicional mínimo demuestra su potencial para avanzar en este campo. Este trabajo subraya la importancia de interacciones intermodales eficientes para mejorar la precisión y escalabilidad de los modelos de visión y lenguaje.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.