Este artículo sobre IA revela el futuro de los modelos multimodales de lenguaje grande (MM-LLM): comprensión de su evolución, capacidades e impacto en la investigación de IA

Los desarrollos recientes en el entrenamiento previo multimodal (MM) han ayudado a mejorar la capacidad de los modelos de aprendizaje automático (ML) para manejar y comprender una variedad de tipos de datos, incluidos texto, imágenes, audio y video. La integración de modelos de lenguaje grande (LLM) con el procesamiento de datos multimodal ha llevado a la creación de sofisticados MM-LLM (modelos de lenguaje grande multimodal).

En los MM-LLM, los modelos unimodales previamente entrenados, en particular los LLM, se combinan con modalidades adicionales para capitalizar sus fortalezas. En comparación con el entrenamiento de modelos multimodales desde cero, este método reduce los costos informáticos y al mismo tiempo mejora la capacidad del modelo para manejar varios tipos de datos.

Modelos como GPT-4(Vision) y Gemini, que han demostrado capacidades notables para comprender y producir contenido multimodal, son ejemplos de avances recientes en este campo. La comprensión y generación multimodal ha sido objeto de investigación, con ejemplos de modelos como Flamingo, BLIP-2 y Kosmos-1, que son capaces de procesar imágenes, sonidos e incluso vídeo además de texto.

Integrar el LLM con otros modelos modales de una manera que les permita cooperar bien es uno de los principales problemas de los MM-LLM. Para que las diversas modalidades funcionen de acuerdo con las intenciones y la comprensión humanas, deben estar alineadas y sintonizadas. Los investigadores se han centrado en aumentar las capacidades de los LLM convencionales manteniendo su capacidad innata de razonamiento y toma de decisiones y permitiéndoles desempeñarse bien en una gama más amplia de tareas multimodales.

En una investigación reciente, un equipo de investigadores del Tencent AI Lab, la Universidad de Kyoto y el Instituto de Automatización de Shenyang realizaron un extenso estudio sobre el campo de los MM-LLM. Comenzando con la definición de formulaciones de diseño generales para la arquitectura de modelos y el proceso de capacitación, el estudio cubre una serie de temas. El equipo de su estudio ha ofrecido una comprensión básica de las ideas esenciales detrás de la creación de MM-LLM.

Después de proporcionar un resumen de las formulaciones de diseño, se exploró el estado actual de los MM-LLM. Para cada uno de los 26 MM-LLM identificados, se ha brindado una breve introducción, enfatizando sus composiciones y cualidades únicas. El equipo ha compartido que el estudio proporciona a sus lectores una comprensión de la variedad y las sutilezas de los modelos que se utilizan actualmente en el área de MM-LLM.

Los MM-LLM se han evaluado utilizando estándares de la industria. La evaluación ha explicado detalladamente el rendimiento de estos modelos frente a los estándares de la industria y en circunstancias del mundo real. El estudio también ha resumido importantes enfoques o fórmulas de capacitación que han tenido éxito en aumentar la efectividad general de los MM-LLM.

https://arxiv.org/abs/2401.13601

Se han examinado los cinco componentes clave de la arquitectura del modelo general de los modelos de lenguaje grande multimodal (MM-LLM), que son los siguientes.

  1. Codificador de modalidad: esta parte traduce datos de entrada, como texto, imágenes, audio, etc., de varias modalidades a un formato que el LLM pueda comprender.
  1. LLM Backbone: las capacidades fundamentales de procesamiento y generación del lenguaje las proporciona este componente, que frecuentemente es un modelo previamente entrenado.
  1. Generador de modalidad: es crucial para modelos que se concentran en la comprensión y generación multimodal. Convierte los resultados del LLM en varias modalidades.
  1. Proyector de entrada: es un elemento crucial en el proceso de integración y alineación de las entradas multimodales codificadas con el LLM. Con un proyector de entrada, la entrada se transmite exitosamente a la red troncal LLM.
  1. Proyector de salida: convierte la salida del LLM a un formato apropiado para la expresión multimodal una vez que el LLM ha procesado los datos.

En conclusión, esta investigación proporciona un resumen exhaustivo de los MM-LLM, así como información sobre la eficacia de los modelos actuales.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.