Un objetivo clave en el desarrollo de la IA es la creación de asistentes de uso general que utilicen grandes modelos multimodales (LMM). La creación de sistemas de IA que puedan trabajar en conjunto con personas en diversos entornos y con una amplia variedad de trabajos es fundamental para el concepto de asistente de uso general. Estos ayudantes no se limitan a una sola área de especialización; son capaces de manejar fácilmente el servicio al cliente, proyectos creativos, gestión de tareas personales e incluso trabajos analíticos difíciles. Con la ayuda de los LMM, estos asistentes pueden procesar y reaccionar a una variedad más amplia de entradas, lo que aumenta su versatilidad y practicidad.
Un esfuerzo colaborativo de ByteDance, NTU, CUHK y HKUST ha dado como resultado el desarrollo de LLaVA-OneVision, un avance significativo en la investigación de asistentes de visión y lenguaje de gran tamaño (LLaVA). Este sistema demuestra cómo construir un modelo que pueda comprender y ejecutar una amplia gama de tareas de visión artificial en escenarios del mundo real. El uso de un módulo de conexión básico, que vincula codificadores de visión con modelos de lenguaje de gran tamaño (LLM), es una receta rentable que puede resultar beneficiosa para toda la comunidad de IA.
El primer modelo LLaVA muestra notables habilidades de conversación multimodal, imitando ocasionalmente el comportamiento de GPT-4V en imágenes e instrucciones nuevas. LLaVA-1.5 logra un rendimiento de última generación (SoTA), lo que significa que supera a todos los demás modelos existentes en cientos de puntos de referencia con una receta de uso eficiente de los datos, expandiendo y mejorando enormemente las capacidades al incluir más datos de instrucción relacionados con lo académico. LLaVA-NeXT aprovecha esta cualidad al mejorar significativamente el rendimiento a través de tres métodos principales: AnyRes funciona con el mejor LLM de código abierto disponible en ese momento, maneja fotos de alta resolución y expande los datos de instrucción de alta calidad. El diseño minimalista de la serie LLaVA se traslada a la arquitectura del modelo con los principales objetivos de hacer un buen uso de las capacidades preentrenadas del LLM y el modelo visual y permitir un comportamiento sólido de escalado de datos y modelos.
Modelado de LLaVA-OneVision
La clave del éxito de la codificación visual es la representación de las señales visuales. La resolución de píxeles sin procesar y el número de tokens del espacio de características están relacionados con esto, ya que determinan la configuración de la representación de la entrada visual. Ambas características se escalan para mejorar el rendimiento, en particular en tareas de detalle visual. Los investigadores descubren que escalar la resolución es más eficaz que escalar el número de tokens para lograr un equilibrio entre rendimiento y costo, y proponen un método AnyRes con agrupación.
El método propuesto para el escalamiento de datos en el preentrenamiento multimodal ofrece un enfoque más eficiente, en particular si se considera la calidad a menudo deficiente de los datos de texto e imágenes públicos a escala web. Al centrarse en el aprendizaje de conocimientos de alta calidad con un presupuesto informático limitado, los investigadores pretenden refinar y mejorar la información que ya poseen los LLM y ViT preentrenados. Para garantizar una adquisición de conocimientos de primer nivel, examinan cuidadosamente los datos de tres áreas principales:
- Datos sobre descripciones detalladas con subtítulos repetidos. Entre los LMM de código abierto, LLaVA-NeXT-34B se destaca por su impresionante capacidad de subtítulos detallados. El equipo creó nuevos subtítulos de imágenes utilizando el modelo para los conjuntos de datos COCO118K, BLIP558K y CC3M. Con un total combinado de 3,5 millones de muestras, crearon los datos de descripción detallada con subtítulos repetidos. El uso de su versión inicial del modelo para producir datos de entrenamiento es una forma de considerar esto como un esfuerzo básico en la IA de autosuperación.
- Datos de reconocimiento óptico de caracteres y documentos: el equipo utilizó el subconjunto de lectura de texto de 100 000 caracteres del conjunto de datos UReader, disponible a través de la representación de PDF. Los datos de documentos/OCR, que constan de 1,1 millones de muestras, se formaron combinando estos datos de lectura de texto con SynDOG EN/CN.
- Datos sobre chino e idioma: Los investigadores se propusieron aumentar la capacidad del modelo en chino mediante el uso de las fotos originales ShareGPT4V y GPT-4V que ofrece la API de Azure para generar 92 000 datos de subtítulos detallados. Su objetivo era garantizar que la capacidad de comprensión del idioma del modelo estuviera equilibrada, teniendo en cuenta la enorme cantidad de datos de subtítulos precisos empleados. Del conjunto de datos Evo-Instruct, extrajeron 143 000 muestras.
El ajuste de un LMM para interpretar y responder a instrucciones visuales se denomina ajuste de instrucciones visuales. El lenguaje y los medios visuales (LMM) procesan y responden a estas instrucciones, como texto, imágenes o videos. Interpretar las instrucciones y dar las respuestas necesarias requiere combinar la comprensión visual con el procesamiento del lenguaje natural. Investigaciones anteriores han demostrado que la capacidad del LMM depende en gran medida de los datos de ajuste de instrucciones visuales. En consecuencia, es esencial y ventajoso para la comunidad mantener un repositorio de conjuntos de datos de alta calidad. Los investigadores comenzaron a acumular una proporción desigual de datos en todas las categorías de una amplia variedad de fuentes originales para crear un gran conjunto de conjuntos de datos de ajuste de instrucciones. También utilizan varios subconjuntos recién adquiridos de los conjuntos de datos del Caldero y el Cámbrico. La visión, la instrucción y la respuesta forman una jerarquía de tres niveles que se utiliza para clasificar los datos.
Los conjuntos de datos académicos como VQAv2, GQA y Visual Genome proporcionan datos de formato fijo, mientras que los modelos avanzados como Gemini y GPT-4V/o anotan datos de formato libre. Las respuestas originales se conservan para los datos de formato libre. Sin embargo, cuando se trabaja con datos de formato fijo, el equipo revisa cada pieza de material a mano y corrige cualquier error en los formatos de preguntas y respuestas que encuentran. Para tipos de datos como opciones múltiples, respuestas cortas y tareas especializadas (por ejemplo, OCR), se sigue la técnica de indicaciones LLaVA-1.5. Esto es esencial para guiar el comportamiento del modelo para evitar conflictos causados por diversas fuentes de datos y garantizar un equilibrio adecuado entre el rendimiento de control de calidad, la capacidad de conversación y las habilidades de razonamiento en tareas más complejas.
Un conjunto de instrucciones se utiliza en situaciones con una sola imagen y el segundo en todas las circunstancias de visión posibles. Su investigación anterior proporcionó las bases para esta separación al demostrar la interdependencia de los modelos de imagen y video; específicamente, un modelo de imagen más sólido puede generalizar mejor las tareas que involucran múltiples fotos o videos. Los conjuntos de datos de entrenamiento para tareas de una sola imagen también tienen una cantidad mucho mayor y una mejor calidad que los de películas y tareas de múltiples imágenes.
El equipo separa rigurosamente tres funciones importantes en tres etapas de aprendizaje distintas para realizar experimentos de ablación, con el fin de permitir que el LLM tenga capacidades multimodales. Para entrenar el modelo, siguen un principio de aprendizaje curricular que observa sistemáticamente los objetivos de entrenamiento y ejemplos de tareas progresivamente más desafiantes.
- El primer paso es alinear el lenguaje y las imágenes. El objetivo es alinear las características visuales con el espacio de inserción de palabras de los LLM.
- El siguiente paso implica el aprendizaje de conocimientos de alta calidad. Los investigadores sugieren considerar el aprendizaje de conocimientos de alta calidad para combinar la eficiencia computacional con la incorporación de nueva información a los LMM.
- Los investigadores implementan luego el ajuste de instrucciones visuales categorizando los datos de instrucciones en varios conjuntos para entrenar a LMM a responder apropiadamente a varias tareas visuales. Dos pasos distintos comprenden el procedimiento de ajuste de instrucciones visuales: (i) Entrenamiento con una sola imagen: después de ser entrenado con 3,2 millones de imágenes individuales, el modelo desarrolla una fuerte capacidad para seguir varias instrucciones para realizar tareas visuales con una sola imagen. (ii) Utilizando una combinación de datos de video, una sola imagen y múltiples imágenes, el modelo es entrenado usando OneVision. En este punto, el modelo puede manejar escenarios más complejos que aquellos que involucran una sola imagen. Se crean capacidades emergentes a medida que aprende a seguir instrucciones para ejecutar tareas en diversos entornos y aplica ese conocimiento a otros escenarios.
Utilizando LMMs-Eval, los investigadores realizan pruebas consistentes y repetibles en todos los puntos de referencia para evaluar los modelos LLaVA-OneVision. Principalmente informan datos de artículos originales para que se puedan comparar de manera justa otros LMM destacados. Cargan los modelos en LMMs-Eval y los prueban con parámetros consistentes cuando los resultados no están disponibles. A menos que se indique lo contrario, utilizan una decodificación voraz y configuraciones de 0 disparos para todos los resultados. Para descubrir la eficacia y la generalización del paradigma propuesto, evalúan exhaustivamente sus modelos LLaVA-OneVision utilizando varias modalidades, como video, audio e imágenes individuales. Después de las etapas de imagen única y visión única del entrenamiento del modelo, se hace referencia al punto de control resultante como LLaVA-OV (SI) y LLaVA-OV, respectivamente. Las aplicaciones que van desde dispositivos de borde hasta servicios en la nube pueden utilizar los tres tamaños de modelo disponibles (0,5 B, 7 B y 72 B) para adaptarse a diferentes compensaciones entre rendimiento y capacidad de procesamiento.
Estos hallazgos sirven como puntos de referencia para GPT-4V y GPT-4o. Al comparar GPT-4V con GPT-4o en la mayoría de los puntos de referencia, el modelo más grande, LLaVA-OneVision-72B, produce resultados superiores. Los resultados muestran que la receta es efectiva, lo que es un buen augurio para futuros esfuerzos de escalamiento. Sin embargo, todavía hay un abismo significativo en tareas más complicadas como escenarios de chat visual; el equipo dejará esto para futuros estudios centrados en LLM más robustos, conjuntos de datos de entrenamiento más grandes y un mejor aprendizaje de preferencias.
Echa un vistazo a la Papel y Página del proyectoTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios
Encuentra lo próximo Seminarios web sobre IA aquí
Dhanshree Shenwai es ingeniera informática y tiene una amplia experiencia en empresas de tecnología financiera que abarcan los ámbitos financiero, de tarjetas y pagos y bancario, y está muy interesada en las aplicaciones de la inteligencia artificial. Le entusiasma explorar nuevas tecnologías y avances en el cambiante mundo actual, facilitando la vida de todos.