Screenshot 2024 10 01 At 4.35.20 Pm.png

Los modelos de lenguajes grandes (LLM) han ganado una atención significativa debido a sus capacidades avanzadas para procesar y generar texto. Sin embargo, la creciente demanda de procesamiento de entradas multimodal ha llevado al desarrollo de modelos de lenguaje visual. Estos modelos combinan las fortalezas de los LLM con codificadores de imágenes para crear modelos de lenguaje de visión grande (LVLM). A pesar de sus resultados prometedores, los LVLM enfrentan un desafío importante a la hora de adquirir datos de ajuste fino de alta calidad, porque la obtención de contenido curado por humanos a escala suele ser prohibitivamente costosa, especialmente para datos multimodales. Por lo tanto, existe una necesidad urgente de métodos rentables para obtener datos de ajuste para mejorar los LVLM y ampliar sus capacidades.

Los avances recientes en VLM se han visto impulsados ​​por la integración de LLM de código abierto con codificadores de imágenes innovadores, lo que llevó al desarrollo de LVLM. Los ejemplos incluyen LLaVA, que combina el codificador de visión de CLIP con Vicuna LLM, y otros modelos como LLaMA-Adapter-V2, Qwen-VL e InternVL. Sin embargo, a menudo dependen de costosos datos seleccionados por humanos o generados por IA para realizar ajustes. Investigaciones recientes han abordado esta limitación explorando técnicas de ajuste de alineación, como la optimización directa de políticas (DPO) y el ajuste de preferencias iterativas. Sin embargo, la adaptación de estas técnicas para LVLM ha sido limitada, y los intentos iniciales se centraron en datos etiquetados por humanos o contenido generado por GPT-4 para realizar ajustes.

Investigadores de UCLA, UC Berkeley y la Universidad de Stanford han introducido un enfoque llamado Autoformación en comprensión de imágenes (STIC). Este método enfatiza el autoentrenamiento específicamente para la comprensión de imágenes en LVLM y autoconstruye un conjunto de datos de preferencias para descripciones de imágenes utilizando imágenes sin etiquetar. Genera respuestas preferidas a través de un mensaje paso a paso y respuestas no preferidas a partir de imágenes corruptas o mensajes engañosos. STIC reutiliza una pequeña porción de los datos de ajuste de instrucciones existentes y agrega descripciones de imágenes autogeneradas a las indicaciones para mejorar el razonamiento sobre la información visual extraída.

El método STIC utiliza llava-v1.6-mistral-7b como modelo base para el autoentrenamiento con datos de preferencias generados por el modelo. El proceso consta de dos etapas principales: autoformación en la descripción de imágenes (Algoritmo 1) y ajuste fino basado en la descripción (Algoritmo 2). Para el conjunto de datos de preferencias autoconstruido, se muestrean aleatoriamente 6000 imágenes sin etiquetar de la división train2014 del conjunto de datos MSCOCO. La segunda etapa implica un submuestreo aleatorio de 5000 puntos de datos de ajuste fino de instrucciones a partir de los datos SFT de LLaVA para construir datos de ajuste fino con descripción. Utiliza un ajuste de adaptación de rango bajo (LoRA) para un cálculo eficiente. El rendimiento de STIC se evalúa en función de siete puntos de referencia, incluidos ScienceQA, TextVQA, ChartQA, LLaVA-Bench, MMBench, MM-Vet y MathVista.

El método STIC demuestra mejoras consistentes y significativas con respecto a los modelos LLaVA originales en siete conjuntos de datos diversos. Mejora el rendimiento de LLaVA-v1.5 en un promedio del 1,7 % y el rendimiento de LLaVA-v1.6 en un 4,0 %. Estas mejoras se logran utilizando únicamente datos de preferencias autoconstruidos y una pequeña porción del conjunto de datos de ajuste fino original del modelo. El modelo LLaVA-v1.6, más avanzado, muestra más mejoras que LLaVA-v1.5, lo que indica una correlación potencial entre las capacidades inherentes de un modelo y su capacidad de superación personal a través de STIC. Los investigadores también realizaron estudios de ablación sobre los componentes clave de STIC para demostrar su importancia y eficacia y examinaron la distribución de imágenes de los datos de autoentrenamiento (MSCOCO).

En este artículo, los investigadores propusieron el autoentrenamiento en comprensión de imágenes (STIC) para mejorar las capacidades de comprensión de imágenes de los LVLM. Realizaron experimentos en siete puntos de referencia de visión y lenguaje que demostraron mejoras significativas en el rendimiento. Los resultados resaltan el potencial de STIC para utilizar grandes cantidades de imágenes sin etiquetar, ofreciendo una solución rentable para hacer avanzar los LVLM. Las investigaciones futuras podrían centrarse en probar STIC con modelos más grandes, estudiar cómo la distribución de imágenes afecta el éxito del autoentrenamiento y explorar cómo las diferentes corrupciones e indicaciones de imágenes influyen en la creación de muestras menos deseables. Estos esfuerzos podrían mejorar el desempeño de STIC y ampliar su papel en el avance del desarrollo de LVLM.


Mira el Papel, GitHub, y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.