Los grandes modelos de lenguaje son sofisticados sistemas de inteligencia artificial creados para comprender y producir un lenguaje similar al humano a gran escala. Estos modelos son útiles en diversas aplicaciones, como respuesta a preguntas, generación de contenido y diálogos interactivos. Su utilidad proviene de un largo proceso de aprendizaje en el que analizan y comprenden cantidades masivas de datos en línea.
Estos modelos son instrumentos avanzados que mejoran la interacción persona-computadora al fomentar un uso más sofisticado y efectivo del lenguaje en diversos contextos.
Más allá de leer y escribir textos, se están llevando a cabo investigaciones para enseñarles a comprender y utilizar diversas formas de información, como sonidos e imágenes. El avance en las capacidades multimodales es muy fascinante y muy prometedor. Los modelos de lenguajes grandes (LLM) contemporáneos, como GPT, han mostrado un rendimiento excepcional en una variedad de tareas relacionadas con el texto. Estos modelos se vuelven muy buenos en diferentes tareas interactivas mediante el uso de métodos de entrenamiento adicionales como el ajuste supervisado o el aprendizaje reforzado con guía humana. Para alcanzar el nivel de experiencia que se observa en los especialistas humanos, especialmente en desafíos que involucran codificación, pensamiento cuantitativo, razonamiento matemático y participación en conversaciones como chatbots de IA, es esencial perfeccionar los modelos a través de estas técnicas de capacitación.
Cada vez está más cerca de permitir que estos modelos comprendan y creen material en varios formatos, incluidas imágenes, sonidos y videos. Se aplican métodos, incluida la alineación de características y la modificación del modelo. Los grandes modelos de visión y lenguaje (LVLM) son una de estas iniciativas. Sin embargo, debido a problemas con la capacitación y la disponibilidad de datos, los modelos actuales tienen dificultades para abordar escenarios complicados, como diálogos de múltiples imágenes y rondas, y están limitados en términos de adaptabilidad y escalabilidad en diversos contextos de interacción.
Los investigadores de Microsoft lo han bautizado como DeepSpeed-VisualChat. Este marco mejora los LLM al incorporar capacidades multimodales, lo que demuestra una escalabilidad excepcional incluso con un tamaño de modelo de lenguaje de 70 mil millones de parámetros. Esto fue formulado para facilitar chats dinámicos con diálogos de múltiples rondas y múltiples imágenes, fusionando a la perfección entradas de texto e imágenes. Para aumentar la adaptabilidad y la capacidad de respuesta de los modelos multimodales, el marco utiliza atención causal multimodal (MMCA), un método que estima por separado los pesos de atención en varias modalidades. El equipo ha utilizado enfoques de combinación de datos para superar los problemas con los conjuntos de datos disponibles, lo que ha dado como resultado un entorno de formación rico y variado.
DeepSpeed-VisualChat se distingue por su excelente escalabilidad, que fue posible gracias a la cuidadosa integración del marco DeepSpeed. Este marco exhibe una escalabilidad excepcional y supera los límites de lo que es posible en los sistemas de diálogo multimodal mediante la utilización de un codificador visual de 2 mil millones de parámetros y un decodificador de lenguaje de 70 mil millones de parámetros de LLaMA-2.
Los investigadores destacan que la arquitectura de DeepSpeed-VisualChat se basa en MiniGPT4. En esta estructura, una imagen se codifica usando un codificador de visión previamente entrenado y luego se alinea con la salida de la dimensión oculta de la capa de incrustación de texto usando una capa lineal. Estas entradas se introducen en modelos de lenguaje como LLaMA2, respaldados por el innovador mecanismo de atención causal multimodal (MMCA). Es significativo que durante este procedimiento tanto el modelo de lenguaje como el codificador de visión permanezcan congelados.
Según los investigadores, la atención cruzada clásica (CrA) proporciona nuevas dimensiones y problemas, pero la atención causal multimodal (MMCA) adopta un enfoque diferente. Para los tokens de texto e imagen, MMCA utiliza matrices de peso de atención separadas, de modo que los tokens visuales se centran en sí mismos y el texto permite centrarse en los tokens que los precedieron.
DeepSpeed-VisualChat es más escalable que los modelos anteriores, según resultados del mundo real. Mejora la adaptación en diversos escenarios de interacción sin aumentar la complejidad ni los costos de capacitación. Al ampliarse hasta un tamaño de modelo de lenguaje de 70 mil millones de parámetros, ofrece una escalabilidad particularmente excelente. Este logro proporciona una base sólida para el avance continuo en modelos de lenguaje multimodal y constituye un importante paso adelante.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.
Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.