Para Image Encoder, variaron entre los modelos CLIP y AIM, el tamaño de resolución de la imagen y el conjunto de datos en el que se entrenaron los modelos. El siguiente cuadro muestra los resultados de cada ablación.
Repasemos las piezas principales anteriores y expliquemos cuáles son.
ACORTAR significa Preentrenamiento de imágenes en lenguaje contrastivo y está destinado a ayudar a su modelo a aprender conceptos visuales proporcionando nombres a las cosas que deben verse como texto. Como muestra la imagen a continuación, esto combina imágenes con codificaciones de texto para que el modelo eventualmente conecte los tokens de visión (representados en la imagen a continuación como I, con los tokens de texto T). Este método se llama entrenamiento contrastivo.
APUNTAR significa Modelo de imagen autorregresivo y se entrena mediante un algoritmo de optimización de pérdidas reconstructivas. El objetivo aquí es ver si el transformador puede recrear (reconstruir) la imagen que se le proporciona.
Resolución de imagen aquí se refiere a la cantidad de píxeles que se alimentan al transformador. Por ejemplo, una resolución de imagen de 378 x 378 significa que pasaremos una matriz de ese tamaño y luego la convertiremos en incrustaciones en las que luego se entrenará el modelo. Datos de entrenamiento se dividió entre (DFN-2B), (DFN-5B), (DFN-5B + VeCap) e (ImageText-400M).
Los autores descubrieron que la resolución de la imagen era la de mayor importancia, seguida del tamaño del modelo y luego el contenido de los datos de entrenamiento. Específicamente, vieron que cuanto mejor era la resolución de la imagen, mejor tendía a funcionar el modelo tanto para indicaciones de disparo cero como de pocos disparos. A medida que se necesita más computación para entrenar y ejecutar modelos con requisitos de resolución de imagen más altos, esto sugiere que para Vision Transformers, la computación seguirá siendo de suma importancia.
Para VL Connector, probaron usando 64 o 144 tokens para la imagen, probaron usando 224, 336 y 378 para la resolución de la imagen y eligieron entre algunas arquitecturas. Repasaré brevemente las arquitecturas a continuación.
Agrupación promedio es exactamente lo que parece, tomar el promedio de todos los tokens y luego hacer una proyección lineal de este promedio para que la cuadrícula sea de 8×8 o 12×12.
Atención compartida asume que los tokens de imágenes deben tratarse como muestras de un conjunto de población fundamentalmente diferente al de los tokens de texto. Aquí ajustamos la cantidad de tokens que se introducen para cada imagen, lo que en el documento se denomina k consultas que se pueden aprender. Los investigadores sólo consideraron k de 64 o 144.
Mapeo convolucional es un método de Honeybee que utiliza ResNet para decidir dinámicamente cuántos tokens pasar al LLM desde la imagen. Esto se actualiza en el módulo C-Abstractor.
Como puede verse en lo anterior, las diferentes arquitecturas en realidad tuvieron muy poco impacto. Como se podría suponer, las imágenes de mayor resolución y la mayor cantidad de tokens pasaron por un mayor rendimiento entre todos los conectores, pero no de manera espectacular.
Este hallazgo sugiere que no hemos encontrado una manera significativamente mejor de conectar el codificador de imágenes al LLM, o que esta área simplemente no es donde los grandes modelos se diferenciarán.
Aquí, los autores jugaron con cuatro tipos diferentes de datos: imágenes con subtítulos, imágenes con subtítulos sintéticos, datos de imagen y texto entrelazados y datos de solo texto. Encontraron 4 lecciones, cada una con un gráfico para resumir los cambios en el rendimiento.
Primero, el entrelazado de datos ayuda con el rendimiento de pocas tomas y de solo texto, mientras que los datos con subtítulos ayudan con el rendimiento de cero tomas. Los investigadores variaron la cantidad de entrelazado que hicieron, y el siguiente gráfico muestra los resultados. Como puede ver, las indicaciones de algunos disparos funcionaron notablemente mejor en los modelos entrenados con datos entrelazados que en los modelos entrenados con todo o nada.
SegundoLos datos de solo texto ayudan con el razonamiento breve. Solo texto en este contexto significa que los datos de entrenamiento incluyen ejemplos de imágenes y ejemplos de solo texto. Esto se hizo para garantizar que el modelo comprenda el lenguaje humano además de las imágenes. La comparación de solo subtítulos con subtítulos con texto muestra una mejora marcada para todos excepto para el razonamiento de 0 disparos; sin embargo, solo entrelazado funciona mejor que entrelazado más texto para todos excepto para la prueba TextCore.
Tercero, si logras la combinación correcta entre imagen y texto, puedes obtener un rendimiento realmente sólido. El gráfico anterior muestra diferentes proporciones de datos entrelazados + subtítulos con respecto a datos de solo texto. Como el objetivo es tener un modelo multimodal, nunca probaron el rendimiento si no tienes datos de imagen. Los autores señalan aquí que la proporción 91/9 produjo los mejores resultados de manera más consistente.
Cuatro, los datos sintéticos ayudan con el aprendizaje en pocas oportunidades. VeCap significa subtítulos enriquecidos visualmente, que es una forma de crear subtítulos para que describan piezas visuales clave de la imagen. Por el contrario, imagine un título que pueda explicar el significado detrás de una foto pero no explique ninguno de los elementos de la foto. Normalmente haría esto si su raspador de datos encontrara imágenes con datos de texto alternativo deficientes.
Los autores concluyeron que VeCap proporciona un impulso «no trivial» al razonamiento de pocos intentos, pero tiene un aumento relativamente pequeño en la calidad. Esto plantea dudas sobre la rentabilidad de VeCap.
Utilizando los resultados de sus ablaciones, los autores crearon un Transformador en dos formas: Mezcla de Expertos y regular. Ambos modelos tenían un codificador con una imagen de 378 x 378, previamente entrenado únicamente con el conjunto de datos DFN-5B. Tenían una combinación de 45 % de datos con subtítulos, 45 % de datos entrelazados y 10 % de datos de solo texto (aproximadamente la proporción de 91:9 entre datos de imagen y texto). El VL Connector tenía 144 tokens y eligieron un C Abstractor, aunque señalan que fue una elección un tanto arbitraria. Para el LLM en sí, crearon un modelo de parámetros 3B, 7B y 30B (y el modelo MoE solo llega hasta 7B). El siguiente gráfico muestra el rendimiento de estos modelos.
Curiosamente, el modelo de parámetros 30B funciona a la par con otros modelos que tienen miles de millones más de parámetros que él (LLaVA-NeXT-34B, etc.), lo que sugiere que puede haber alguna relación cuántica entre el tamaño de los parámetros y el rendimiento.
Los LLM multimodales son una parte increíblemente emocionante del campo. A medida que encontremos mejores formas de transmitir diferentes tipos de datos en tokens, podremos desbloquear aplicaciones aún mayores para estos transformadores. Al mirar hacia el futuro, no es descabellado considerar ahora cómo se podrían ingresar otros sentidos fuera de una descripción textual, como el sonido, el olfato o incluso el tacto. Es probable que la calidad de los datos sea cada vez más valiosa.
Como los autores concluyeron que los diferentes conectores de idiomas no hacen una gran diferencia, será interesante ver si esto significa que la investigación debería centrarse en el codificador de imágenes, o más bien si simplemente no hemos encontrado una forma verdaderamente innovadora de utilizar el Conector VL.
Más allá de este documento específico, una de las grandes preguntas que surge es cómo se desempeñarán estos MLLM fuera de los puntos de referencia. A medida que han proliferado los LLM, una crítica común gira en torno al uso de puntos de referencia para compararlos. Muchas veces, estos puntos de referencia utilizan un conjunto de datos consistente para comparar, lo que permite que un modelo funcione mejor simplemente sobreajustándolo, incluso si no es intencional. Utilizando metodologías como ELO, el algoritmo de calificación de ajedrez, en el LLM Arena de lmsys puede dar una mejor comparación real del rendimiento del modelo.
Para terminar, a medida que se puedan conectar más entradas a los LLM, se puede esperar que aumente la cantidad de aplicaciones a las que se pueden aplicar. Sólo el tiempo dirá cuán útil podemos hacer esta tecnología.