Screenshot 2024 04 30 At 9.53.31 Am.png

Los modelos multimodales de lenguaje grande (MLLM) integran el procesamiento de datos visuales y de texto para mejorar la forma en que la inteligencia artificial entiende el mundo e interactúa con él. Esta área de investigación se centra en la creación de sistemas que puedan comprender y responder a una combinación de señales visuales e información lingüística, imitando más de cerca las interacciones similares a las humanas.

El desafío suele radicar en las capacidades limitadas de los modelos de código abierto en comparación con sus homólogos comerciales. Los modelos de código abierto frecuentemente presentan deficiencias en el procesamiento de entradas visuales complejas y en el soporte de varios lenguajes, lo que puede restringir sus aplicaciones prácticas y su efectividad en diversos escenarios.

Históricamente, la mayoría de los MLLM de código abierto se han entrenado con resoluciones fijas, principalmente utilizando conjuntos de datos limitados al idioma inglés. Este enfoque dificulta significativamente su funcionalidad cuando se encuentran imágenes de alta resolución o contenido en otros idiomas, lo que dificulta que estos modelos funcionen bien en tareas que requieren una comprensión visual detallada o capacidades multilingües.

La investigación del Laboratorio de IA de Shanghai, SenseTime Research, la Universidad de Tsinghua, la Universidad de Nanjing, la Universidad de Fudan y la Universidad China de Hong Kong presenta PasanteVL 1.5, un MLLM de código abierto diseñado para mejorar significativamente las capacidades de los sistemas de código abierto en la comprensión multimodal. Este modelo incorpora tres mejoras importantes para cerrar la brecha de rendimiento entre los modelos comerciales de código abierto y propietarios. Los tres componentes principales son:

  1. En primer lugar, se ha optimizado un potente codificador de visión, InternViT-6B, mediante una estrategia de aprendizaje continuo, mejorando sus capacidades de comprensión visual.
  2. En segundo lugar, un enfoque dinámico de alta resolución permite que el modelo maneje imágenes con una resolución de hasta 4K ajustando dinámicamente los mosaicos de imágenes según la relación de aspecto y la resolución de la entrada.
  3. Por último, se ha reunido meticulosamente un conjunto de datos bilingües de alta calidad que cubre escenas comunes e imágenes de documentos anotadas con pares de preguntas y respuestas en inglés y chino.

Los tres pasos aumentan significativamente el rendimiento del modelo en OCR y tareas relacionadas con el idioma chino. Estas mejoras permiten a InternVL 1.5 competir sólidamente en varios puntos de referencia y estudios comparativos, lo que demuestra su eficacia mejorada en tareas multimodales. InternVL 1.5 emplea un enfoque segmentado para el manejo de imágenes, lo que le permite procesar imágenes en resoluciones de hasta 4K dividiéndolas en mosaicos que van desde 448×448 píxeles, adaptándose dinámicamente según la relación de aspecto y la resolución de la imagen. Este método mejora la comprensión de imágenes y facilita la comprensión de escenas y documentos detallados. Las capacidades lingüísticas mejoradas del modelo surgen de su entrenamiento en un conjunto de datos diverso que comprende tanto inglés como chino, que cubre una variedad de escenas y tipos de documentos, lo que aumenta su rendimiento en OCR y tareas basadas en texto en todos los idiomas.

El rendimiento del modelo se evidencia en sus resultados en múltiples puntos de referencia, donde sobresale particularmente en conjuntos de datos relacionados con OCR y comprensión bilingüe de escenas. InternVL 1.5 demuestra resultados de última generación, mostrando marcadas mejoras con respecto a versiones anteriores y superando algunos modelos propietarios en pruebas específicas. Por ejemplo, la respuesta visual a preguntas basada en texto logra una precisión del 80,6% y la respuesta a preguntas basada en documentos alcanza un impresionante 90,9%. En los puntos de referencia multimodales que evalúan modelos en términos de comprensión visual y textual, InternVL 1.5 ofrece consistentemente resultados competitivos, a menudo superando a otros modelos de código abierto y rivalizando con modelos comerciales.

En conclusión, InternVL 1.5 aborda los importantes desafíos que enfrentan los modelos de lenguajes grandes multimodales de código abierto, particularmente en el procesamiento de imágenes de alta resolución y el soporte de capacidades multilingües. Este modelo reduce significativamente la brecha de rendimiento con sus homólogos comerciales mediante la implementación de un codificador de visión robusto, una adaptación de resolución dinámica y un conjunto de datos bilingüe completo. Las capacidades mejoradas de InternVL 1.5 se demuestran a través de su rendimiento superior en tareas relacionadas con OCR y comprensión bilingüe de escenas, lo que lo establece como un competidor formidable en sistemas avanzados de inteligencia artificial.


Revisar la Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 40.000 ml


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.