Los modelos de lenguaje de gran tamaño (LLM), inicialmente limitados al procesamiento basado en texto, enfrentaron desafíos significativos en la comprensión de datos visuales. Esta limitación condujo al desarrollo de modelos de lenguaje visual (VLM), que integran la comprensión visual con el procesamiento del lenguaje. Los primeros modelos como VisualGLM, construidos sobre arquitecturas como BLIP-2 y ChatGLM-6B, representaron esfuerzos iniciales en la integración multimodal. Sin embargo, estos modelos a menudo dependían de técnicas de alineación superficial, lo que restringía la profundidad de la integración visual y lingüística, lo que resaltaba la necesidad de enfoques más avanzados.
Los avances posteriores en la arquitectura VLM, ejemplificados por modelos como CogVLM, se centraron en lograr una fusión más profunda de las características de visión y lenguaje, mejorando así el rendimiento del lenguaje natural. El desarrollo de conjuntos de datos especializados, como el conjunto de datos de OCR sintético, desempeñó un papel crucial en la mejora de las capacidades de OCR de los modelos, lo que permitió aplicaciones más amplias en el análisis de documentos, la comprensión de GUI y la comprensión de videos. Estas innovaciones han ampliado significativamente el potencial de los LLM, impulsando la evolución de los modelos de lenguaje visual.
Este artículo de investigación de Zhipu AI y la Universidad de Tsinghua presenta la familia CogVLM2, una nueva generación de modelos de lenguaje visual diseñados para una mejor comprensión de imágenes y videos, que incluye modelos como CogVLM2, CogVLM2-Video y GLM-4V. Los avances incluyen una arquitectura de mayor resolución para el reconocimiento de imágenes de grano fino, la exploración de modalidades más amplias como la base visual y los agentes de GUI, y técnicas innovadoras como el muestreo posterior para un procesamiento de imágenes eficiente. El artículo también enfatiza el compromiso de abrir el código fuente de estos modelos, lo que proporciona recursos valiosos para una mayor investigación y desarrollo de modelos de lenguaje visual.
La familia CogVLM2 integra innovaciones arquitectónicas, incluido Visual Expert y módulos cruzados de alta resolución, para mejorar la fusión de características visuales y lingüísticas. El proceso de entrenamiento para CogVLM2-Video involucra dos etapas: Ajuste de instrucción, utilizando datos de subtítulos detallados y conjuntos de datos de preguntas y respuestas con una tasa de aprendizaje de 4e-6, y Ajuste de conexión a tierra temporal en el conjunto de datos TQA con una tasa de aprendizaje de 1e-6. El procesamiento de entrada de video emplea 24 cuadros secuenciales, con una capa de convolución agregada al modelo Vision Transformer para una compresión eficiente de las características de video.
La metodología de CogVLM2 utiliza conjuntos de datos sustanciales, que incluyen 330 000 muestras de video y un conjunto de datos de control de calidad de video interno, para mejorar la comprensión temporal. El proceso de evaluación implica generar y evaluar subtítulos de video utilizando GPT-4o para filtrar videos según los cambios en el contenido de la escena. Dos variantes del modelo, cogvlm2-video-llama3-base y cogvlm2-video-llama3-chat, sirven para diferentes escenarios de aplicación, y la última está optimizada para una mejor conexión temporal. El proceso de entrenamiento se lleva a cabo en un clúster NVIDIA A100 de 8 nodos y se completa en aproximadamente 8 horas.
CogVLM2, en particular el modelo CogVLM2-Video, logra un rendimiento de vanguardia en múltiples tareas de respuesta a preguntas de video, sobresaliendo en pruebas comparativas como MVBench y VideoChatGPT-Bench. Los modelos también superan a los modelos existentes, incluidos los más grandes, en tareas relacionadas con imágenes, con un éxito notable en la comprensión de OCR, la comprensión de gráficos y diagramas y la respuesta a preguntas en general. Una evaluación exhaustiva revela la versatilidad de los modelos en tareas como la generación y el resumen de videos, lo que establece a CogVLM2 como un nuevo estándar para los modelos de lenguaje visual tanto en la comprensión de imágenes como de videos.
En conclusión, la familia CogVLM2 marca un avance significativo en la integración de modalidades visuales y de lenguaje, abordando las limitaciones de los modelos tradicionales basados únicamente en texto. El desarrollo de modelos capaces de interpretar y generar contenido a partir de imágenes y videos amplía su aplicación en campos como el análisis de documentos, la comprensión de GUI y la puesta a tierra de videos. Las innovaciones arquitectónicas, que incluyen Visual Expert y módulos cruzados de alta resolución, mejoran el rendimiento en tareas complejas de lenguaje visual. La serie CogVLM2 establece un nuevo punto de referencia para los modelos de lenguaje visual de código abierto, con metodologías detalladas para la generación de conjuntos de datos que respaldan sus sólidas capacidades y futuras oportunidades de investigación.
Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y LinkedInÚnete a nuestro Canal de Telegram.
Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Shoaib Nazir es pasante de consultoría en MarktechPost y ha completado su doble titulación de máster en tecnología en el Instituto Indio de Tecnología (IIT) de Kharagpur. Siendo un gran apasionado de la ciencia de datos, le interesan especialmente las diversas aplicaciones de la inteligencia artificial en diversos ámbitos. Shoaib está impulsado por el deseo de explorar los últimos avances tecnológicos y sus implicaciones prácticas en la vida cotidiana. Su entusiasmo por la innovación y la resolución de problemas del mundo real alimenta su continuo aprendizaje y contribución al campo de la IA.