Los grandes modelos de lenguaje, con sus capacidades de imitación humana, han conquistado a la comunidad de inteligencia artificial. Con capacidades excepcionales de generación y comprensión de texto, modelos como GPT-3, LLaMA, GPT-4 y PaLM han ganado mucha atención y popularidad. GPT-4, el modelo lanzado recientemente por OpenAI debido a sus capacidades multimodales, ha despertado el interés de todos en la convergencia de aplicaciones de visión y lenguaje, como resultado de lo cual se han desarrollado MLLM (Multi-modal Large Language Models). Los MLLM se introdujeron con la intención de mejorarlos agregando capacidades visuales de resolución de problemas.
Los investigadores se han centrado en el aprendizaje multimodal y estudios anteriores han descubierto que varias modalidades pueden funcionar bien juntas para mejorar el rendimiento en tareas textuales y multimodales al mismo tiempo. Las soluciones existentes actualmente, como los módulos de alineación intermodal, limitan el potencial de colaboración entre modalidades. Los modelos de lenguaje grandes se ajustan durante la instrucción multimodal, lo que compromete el desempeño de las tareas de texto, lo que resulta un gran desafío.
Para abordar todos estos desafíos, un equipo de investigadores del Grupo Alibaba ha propuesto un nuevo modelo básico multimodal llamado mPLUG-Owl2. La arquitectura de red modularizada de mPLUG-Owl2 tiene en cuenta la interferencia y la cooperación entre modalidades. Este modelo combina los módulos funcionales comunes para fomentar la cooperación intermodal y un módulo adaptable a la modalidad para realizar una transición entre varias modalidades sin problemas. Al hacer esto, utiliza un decodificador de lenguaje como interfaz universal.
Este módulo adaptable a la modalidad garantiza la cooperación entre las dos modalidades al proyectar las modalidades verbal y visual en un espacio semántico común manteniendo las características específicas de la modalidad. El equipo ha presentado un paradigma de entrenamiento de dos etapas para mPLUG-Owl2 que consiste en un ajuste conjunto de la instrucción de visión y lenguaje y un entrenamiento previo de visión y lenguaje. Con la ayuda de este paradigma, se ha creado el codificador de visión para recopilar información visual semántica de alto y bajo nivel de manera más eficiente.
El equipo ha realizado varias evaluaciones y ha demostrado la capacidad de mPLUG-Owl2 para generalizar a problemas de texto y actividades multimodales. El modelo demuestra su versatilidad como modelo genérico único al lograr rendimientos de última generación en una variedad de tareas. Los estudios han demostrado que mPLUG-Owl2 es único, ya que es el primer modelo MLLM que muestra colaboración de modalidad en escenarios que incluyen tanto texto puro como modalidades múltiples.
En conclusión, mPLUG-Owl2 es definitivamente un avance importante y un gran paso adelante en el área de los modelos de lenguajes grandes multimodales. A diferencia de enfoques anteriores que se concentraban principalmente en mejorar las habilidades multimodales, mPLUG-Owl2 enfatiza la sinergia entre modalidades para mejorar el desempeño en una gama más amplia de tareas. El modelo utiliza una arquitectura de red modularizada, en la que el decodificador de lenguaje actúa como una interfaz de propósito general para controlar diversas modalidades.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.