LLM multimodal: capacidades de expansión en texto y visión
La expansión de los modelos de lenguaje grande (LLM) para manejar múltiples modalidades, particularmente imágenes y texto, ha permitido el desarrollo de sistemas de IA más interactivos e intuitivos. Las LLM multimodales (MLLM) pueden interpretar imágenes, responder preguntas sobre imágenes y participar en diálogos que incluyen texto y imágenes. Su capacidad para razonar en los dominios visuales y lingüísticos los hace cada vez más valiosos para aplicaciones como educación, generación de contenido y asistentes interactivos.
El desafío del olvido de solo texto en mllms
Sin embargo, la integración de la visión en LLM crea un problema. Cuando se entrenan en conjuntos de datos que mezclan imágenes con texto, los MLLM a menudo pierden su capacidad para manejar tareas puramente textuales. Este fenómeno, conocido como olvido de solo texto, ocurre porque los tokens visuales insertados en la secuencia del lenguaje desvían la atención del modelo del texto. Como resultado, el MLLM comienza a priorizar el contenido relacionado con la imagen y funciona mal en las tareas que requieren solo comprensión del lenguaje, como razonamiento básico, comprensión o tareas textuales de preguntas y respuestas (preguntas y respuestas).
Limitaciones de las estrategias de mitigación existentes
Varios métodos intentan abordar esta degradación. Algunos enfoques reintroducen grandes cantidades de datos solo de texto durante el entrenamiento, mientras que otros se alternan entre el ajuste fino solo de texto y multimodal. Estas estrategias tienen como objetivo recordarle al modelo sus capacidades de lenguaje originales. Otros diseños incluyen capas de adaptador o ajuste basado en el aviso. Sin embargo, estas técnicas a menudo aumentan los costos de capacitación, requieren una lógica de cambio compleja durante la inferencia o no pueden restaurar por completo la comprensión del texto. El problema se deriva en gran medida de cómo cambia la atención del modelo cuando los tokens de imagen se introducen en la secuencia.
Introducción de alas: un enfoque de doble aprendizaje de Alibaba y la Universidad de Nanjing
Investigadores del equipo comercial de IA de Alibaba Group y la Universidad de Nanjing han introducido un nuevo enfoque llamado Wings. El diseño agrega dos nuevos módulos, alumnos visuales y textuales, en cada capa del MLLM. Estos alumnos trabajan en paralelo con el mecanismo de atención central del modelo. La estructura se asemeja a “alas” unidas a ambos lados de las capas de atención. Un componente de enrutamiento controla cuánta atención recibe cada alumno en función de la mezcla de token actual, lo que permite que el modelo equilibre su enfoque entre la información visual y textual dinámicamente.
Atención residual de bajo rango (Lorra): eficiencia de equilibrio y conciencia de modalidad
La arquitectura de las alas utiliza un mecanismo llamado atención residual de bajo rango (Lorra), que mantiene los cálculos livianos al tiempo que permite a los alumnos capturar información esencial específica de modalidad. En la primera etapa de entrenamiento, solo los alumnos visuales se activan para alinear las características de la imagen. En la segunda etapa, los alumnos visuales y textuales se entrenan con un módulo de enrutador que utiliza pesos de atención para asignar la responsabilidad. Cada alumno utiliza bloques de atención eficientes para interactuar con la imagen o el texto circundante, y sus salidas se combinan con las del modelo principal. Esto asegura que la atención visual no abrume la comprensión textual.
Partes de rendimiento de alas a través de texto y tareas multimodales
En términos de rendimiento, las alas mostraron fuertes resultados. En el conjunto de datos MMLU, logró una puntuación de solo texto de 60.53, que representa una mejora de 9.70 puntos en comparación con un modelo de referencia similar. Para CMMLU, anotó 69.82, que es 9.36 puntos más alto que la línea de base. En tareas de razonamiento como la race-alto, ganó 11.9 puntos, y en WSC, se registró una mejora de 11.12 puntos. En puntos de referencia multimodales como MMMU-Val, Wings logró una mejora de 4.78 puntos. También demostró resultados robustos en el punto de referencia IIT, manejando diálogos mixtos de texto y imagen de múltiples vueltas de manera más efectiva que otros MLLM de código abierto a la misma escala.
Conclusión: hacia MLLMS más equilibrados y generalizables
En resumen, los investigadores abordaron el tema del olvido de solo texto catastrófico en MLLM al introducir Wings, una arquitectura que combina a los alumnos visuales y textuales dedicados junto con el enrutamiento de atención. Al analizar los cambios de atención y el diseño de intervenciones específicas, mantuvieron el rendimiento del texto al tiempo que mejoraban la comprensión visual, ofreciendo un modelo multimodal más equilibrado y eficiente.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.