LLM multimodales sin compromiso: Investigadores de UCLA, UW-Madison y Adobe introducen X-Fusion para agregar visión a los modelos de idiomas congelados sin perder capacidades de idiomas

Los LLM han hecho avances significativos en tareas relacionadas con el lenguaje, como IA conversacional, razonamiento y generación de código. Sin embargo, la comunicación humana se extiende más allá del texto, a menudo incorporando elementos visuales para mejorar la comprensión. Para crear una IA verdaderamente versátil, los modelos necesitan la capacidad de procesar y generar información e información visual simultáneamente. Entrenamiento de tales modelos unificados en idioma de visión desde cero utilizando métodos como predicción de token autorregresivo o un enfoque híbrido que combina difusión y pérdidas de lenguaje ha mostrado un rendimiento fuerte. Aún así, requiere grandes recursos computacionales y capacitación para cada nueva modalidad. Un enfoque alternativo adapta los LLM previos al detenido con capacidades de visión, que ofrece una ruta más eficiente, pero a menudo compromete el rendimiento original del modelo de idioma.

La investigación actual se ha centrado en tres estrategias principales: fusionar LLM con modelos de generación de imágenes independientes, capacitar a grandes modelos multimodales de extremo a extremo, o usar una combinación de difusión y pérdidas autorregresivas. Si bien estos métodos han logrado resultados de vanguardia, requieren reentrenamiento de modelos grandes o dan como resultado la degradación de las capacidades centrales de la LLM. A pesar de estos desafíos, aprovechar las LLM previas al petróleo con componentes de visión adicionales ha demostrado un potencial significativo, particularmente en tareas que involucran la comprensión y generación de imágenes. Sin embargo, estos métodos aún enfrentan limitaciones en términos de eficiencia y flexibilidad.

Investigadores de UCLA, la Universidad de Wisconsin-Madison y Adobe Research proponen X-Fusion, que adapta los LLM previos al detenido para las tareas multimodales al tiempo que preservan las capacidades del idioma. X-Fusion utiliza una arquitectura de doble torre, congelando los pesos del lenguaje de la LLM mientras agrega una torre específica de la visión para procesar la información visual. El enfoque alinea las características de texto y visión en múltiples niveles, mejorando el rendimiento en las tareas de imagen a texto y texto a imagen. A través de estudios de ablación, los investigadores enfatizan la importancia de los datos de imágenes limpias para la capacitación y muestran que alinear las características de visión con representaciones previamente capacitadas acelera la convergencia, especialmente para modelos más pequeños.

X-Fusion es un marco unificado que adapta los LLM previos al detenido para las tareas de visión al tiempo que conserva sus capacidades lingüísticas. Utiliza un diseño de doble torre, congelando los pesos de texto de la LLM mientras introduce una torre de visión separada para procesar información visual. Las imágenes se tokenizan utilizando un codificador previo, y los tokens de imagen y texto están optimizados conjuntamente. El modelo incorpora una operación opcional de FUSE X para fusionar las características de ambas torres para un rendimiento mejorado. X-Fusion está entrenado con pérdidas autorregresivas y de renovación de imágenes, y su rendimiento se evalúa en las tareas de generación de imágenes (texto a imagen) y comprensión de imágenes (imagen a texto).

El estudio evalúa la arquitectura de doble torre contra las variantes alternativas del transformador para la integración multimodal. Compara la torre única, la torre cerrada y los diseños de doble proyección, destacando la flexibilidad de la torre dual para tareas de imagen y texto. La Torre Dual funciona mejor en generación y comprensión de imágenes, superando a otros diseños en un 23% en FID sin aumentar los parámetros de entrenamiento. El estudio también investiga los efectos de las relaciones de ruido y datos en el rendimiento, descubriendo que las imágenes limpias mejoran la comprensión y la generación. Además, la alineación de las características de visión con un codificador previo a la aparición como el clip aumenta el rendimiento, especialmente para modelos más pequeños.

En conclusión, X-Fusion es un marco que adapta los LLM previos al estado de la aparición a tareas multimodales, como la comprensión de imágenes y la generación, al tiempo que preserva las capacidades del lenguaje. Presenta una arquitectura de doble torre donde los pesos del idioma permanecen fijos, y una torre de visión entrenable separada procesa características visuales. Los resultados experimentales muestran que X-Fusion supera a los diseños alternativos en tareas de imagen y texto a imagen. Los hallazgos clave incluyen los beneficios de incorporar datos centrados en la comprensión, reducir el ruido en los datos de la imagen y el impacto positivo de la alineación de características, especialmente para modelos más pequeños. La investigación contribuye con ideas valiosas en la creación de modelos multimodales eficientes.


Mira el Papel. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.