Las integridades multimodales combinan datos visuales y textuales en un solo espacio de representación, lo que permite que los sistemas comprendan y relacionen las imágenes y el lenguaje de manera significativa. Estas incrustaciones respaldan varias tareas, incluida la respuesta de las preguntas visuales, la recuperación, la clasificación y la base. La tecnología es especialmente importante para los modelos de IA que interpretan el contenido del mundo real a través de lentes visuales y lingüísticas, como análisis de documentos, asistentes digitales o motores de búsqueda visual.
Un desafío apremiante ha sido la incapacidad de los modelos actuales para generalizar en diversas tareas y modalidades de manera efectiva. La mayoría de los modelos están capacitados para tareas o bajo rendimiento altamente específicos cuando se aplican a conjuntos de datos desconocidos. Además, sin un punto de referencia amplio y unificado, evaluar el rendimiento en las tareas multimodales se vuelve inconsistente y fragmentada. Esto limita la capacidad de los modelos para manejar la variedad de funciones requeridas en aplicaciones realistas de dominio cruzado, especialmente cuando se introducen nuevas distribuciones de datos.
Se han propuesto varias herramientas, como Clip, Blip y Siglip, para generar incrustaciones visuales-textuales. Estos modelos generalmente usan codificadores separados para imágenes y texto, fusionando sus salidas a través de operaciones simples como la fusión de nivel de puntuación. Si bien estos enfoques ofrecen utilidad de referencia, sufren una capacidad limitada de razonamiento intermodal y generalización. Su rendimiento en condiciones de disparo cero tiende a disminuir debido a estrategias de fusión poco profundas y la falta de manejo de instrucciones específicas de tareas durante el entrenamiento.
En una colaboración entre investigadores de Salesforce Research y la Universidad de Waterloo, se introdujo un nuevo modelo llamado VLM2VEC junto con un punto de referencia integral llamado MMEB. MMEB comprende 36 conjuntos de datos en cuatro tareas principales: clasificación, respuesta de preguntas visuales, recuperación y conexión a tierra visual. Divide los conjuntos de datos en 20 utilizados para la capacitación y 16 para la evaluación, incluidas las tareas fuera de distribución. El marco VLM2VEC está diseñado para convertir cualquier modelo de lenguaje de visión en un modelo de incrustación utilizando capacitación contrastante. Le permite manejar cualquier combinación de entrada de texto e imágenes mientras sigue las instrucciones de tarea.
Para construir VLM2VEC, el equipo de investigación utilizó modelos troncales como PHI-3.5-V y LLAVA-1.6. El método comienza mediante la construcción de consultas y objetivos basados en instrucciones específicos de la tarea, procesados a través de un modelo de lenguaje de visión para generar incrustaciones. La capacitación contrastante se emplea utilizando la función de pérdida de infonce con similitud de coseno, alineando los incrustaciones al maximizar la similitud entre los pares de consulta de consulta coincidente y minimizarla para los incumplimientos. Para admitir grandes tamaños de lotes, crítico para el entrenamiento con diversos negativos, los investigadores utilizaron GradCache, que divide lotes en sub-lotes de memoria y acumula gradientes. Este proceso garantiza una capacitación eficiente incluso con las altas demandas de memoria de entradas multimodales. Las instrucciones específicas de la tarea están integradas dentro de la tubería de capacitación para ayudar al modelo a adaptar su codificación a la naturaleza de la tarea, como la base o la recuperación, aumentando aún más sus capacidades de generalización.
Los resultados de rendimiento demuestran la ventaja del método propuesto. La versión de mejor rendimiento de VLM2VEC utilizó LLAVA-1.6 como su columna vertebral, ajuste de lora aplicado e imágenes procesadas a una resolución 1344 × 1344. Esta configuración logró una puntuación de precisión@1 de 62.9% en los 36 conjuntos de datos MMEB. En pruebas de disparo cero en los 16 conjuntos de datos fuera de distribución, mantuvo un puntaje fuerte del 57.1%. En comparación con el modelo de referencia de mejor rendimiento sin ajuste fino, que obtuvo un 44.7%, VLM2VEC mostró una mejora de 18.2 puntos. En comparación con la línea de base superior ajustada con 47.2%, la mejora fue de 15.7 puntos. En todas las categorías de tareas (clasificación, VQA, recuperación y conexión a tierra, el modelo) obtuvo constantemente más del 50%, un nivel de rendimiento no igualado por ninguna línea de base. Los resultados también indican que las variantes sintonizadas con Lora superaron a las entrenadas con ajuste completo, lo que demuestra que las estrategias de entrenamiento de los parámetros pueden ofrecer una mayor precisión.
La investigación describe claramente una solución al problema de las herramientas de incrustación multimodal específicas de la tarea que carecen de generalización. Al combinar un marco de entrenamiento bien estructurado y un punto de referencia robusto, el estudio demuestra un modelo de incrustación universal que maneja tareas variadas de manera efectiva utilizando capacitación contrastante y seguimiento de instrucciones. Este desarrollo marca un paso significativo en la IA multimodal escalable y adaptable.
Verificar Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.