Screenshot 2024 01 30 At 3.23.12 Pm.png

El año pasado, los modelos de lenguaje de visión grande (LVLM) se convirtieron en un foco destacado en la investigación de la inteligencia artificial. Cuando se les solicita de otra manera, estos modelos muestran un rendimiento prometedor en diversas tareas posteriores. Sin embargo, todavía existe un potencial significativo para mejorar las capacidades de percepción de imágenes de los LVLM.

Las capacidades de percepción mejoradas para conceptos visuales son cruciales para avanzar en el desarrollo y la implementación del modelo. Dos desafíos principales obstaculizan este progreso: las deficiencias en las redes actuales de vocabulario de visión y el alto costo computacional de optimizar numerosos parámetros.

Los LVLM populares se destacan en tareas en la intersección de la visión por computadora (CV) y el procesamiento del lenguaje natural (NLP), como subtítulos de imágenes, respuesta visual a preguntas (VQA), comprensión de memes y OCR de escenas, en gran parte debido a la impresionante red de vocabulario de visión como ACORTAR. Estos LVLM suelen emplear dos estructuras principales: tokens de imagen como prefijos o atención cruzada para la fusión de características. Sin embargo, independientemente de la arquitectura, el límite superior del modelo puede verse limitado por la eficiencia de su red de vocabulario de visión en la codificación de señales visuales.

Para abordar esto, los investigadores han propuesto un método sencillo y eficaz para ampliar el vocabulario de visión de los LVLM entrenando una nueva red de vocabulario visual utilizando un modelo autorregresivo más pequeño como OPT-125M y fusionándolo con el vocabulario existente para crear un LVLM final. . Sin embargo, Vary tiene desventajas, incluida la capacidad de red desperdiciada y los altos costos de iteración con Vary-base que utiliza 7B LLM.

En respuesta, los investigadores de MEGVII Technology presentaron Vary-toy, una versión más pequeña destinada a mitigar estos problemas. Vary-toy sigue el mismo proceso que Vary pero optimiza el proceso de creación de vocabulario visual. En lugar de tratar las imágenes naturales como muestras negativas, incorporan tareas de detección de objetos en la red de vocabulario, combinando datos textuales densos (PDF) y datos de ubicación de objetos naturales. Este enfoque realza la universalidad de Vary-toy. Después de crear y reforzar el vocabulario, lo fusionan con CLIP y lo integran en un modelo de lenguaje 1.8B.

Los resultados experimentales en puntos de referencia desafiantes como DocVQA, ChartQA, MMvet y RefCOCO demuestran las capacidades de Vary-toy. Logra un rendimiento impresionante en estos puntos de referencia, mostrando su potencial como un LVLM más pequeño pero potente.

Vary-toy logra resultados impresionantes, incluido un 65,6 % de ANLS en DocVQA, un 59,1 % de precisión en ChartQA, un 88,1 % de precisión en RefCOCO y un 29 % en MMVet. El tamaño compacto de Vary-toy lo hace accesible para investigadores con recursos limitados como base práctica para mayor exploración y mejora en la investigación de LVLM. Los investigadores planean publicar el código para una mayor exploración y adopción dentro de la comunidad de investigación.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.