Leopard: un modelo multimodal de lenguaje grande (MLLM) diseñado específicamente para manejar tareas de visión y lenguaje que involucran múltiples imágenes ricas en texto

En los últimos años, los modelos multimodales de lenguaje grande (MLLM) han revolucionado las tareas de visión-lenguaje, mejorando capacidades como los subtítulos de imágenes y la detección de objetos. Sin embargo, cuando se trata de múltiples imágenes ricas en texto, incluso los modelos más modernos enfrentan desafíos importantes. La necesidad del mundo real de comprender y razonar sobre imágenes ricas en texto es crucial para aplicaciones como el procesamiento de diapositivas de presentaciones, documentos escaneados e instantáneas de páginas web. Los MLLM existentes, como LLaVAR y mPlug-DocOwl-1.5, a menudo se quedan cortos al manejar este tipo de tareas, principalmente debido a dos problemas principales: la falta de conjuntos de datos de ajuste de instrucciones de alta calidad específicos para escenarios de múltiples imágenes y la dificultad para mantener un equilibrio óptimo entre la resolución de la imagen y la longitud de la secuencia visual. Abordar estos desafíos es vital para avanzar en casos de uso del mundo real donde el contenido rico en texto juega un papel central.

Investigadores de la Universidad de Notre Dame, Tencent AI Seattle Lab y la Universidad de Illinois Urbana-Champaign (UIUC) han presentado Leopard: un modelo multimodal de lenguaje grande (MLLM) diseñado específicamente para manejar tareas de visión y lenguaje que involucran múltiples imágenes ricas en texto. . Leopard tiene como objetivo llenar el vacío dejado por los modelos actuales y se centra en mejorar el rendimiento en escenarios donde es clave comprender las relaciones y los flujos lógicos entre múltiples imágenes. Al seleccionar un conjunto de datos de alrededor de un millón de puntos de datos de ajuste de instrucciones multimodales de alta calidad adaptados a escenarios de múltiples imágenes y texto rico, Leopard tiene una ventaja única. Este extenso conjunto de datos cubre dominios como documentos de varias páginas, tablas y gráficos, e instantáneas web, lo que ayuda a Leopard a manejar de manera efectiva relaciones visuales complejas que abarcan múltiples imágenes. Además, Leopard incorpora un módulo adaptativo de codificación de múltiples imágenes de alta resolución, que optimiza dinámicamente la asignación de la longitud de la secuencia visual en función de las relaciones de aspecto y resoluciones originales de las imágenes de entrada.

Leopard introduce varios avances que lo distinguen de otros MLLM. Una de sus características más destacables es el módulo adaptativo de codificación de múltiples imágenes de alta resolución. Este módulo permite a Leopard mantener detalles de alta resolución mientras administra la duración de las secuencias de manera eficiente, evitando la pérdida de información que ocurre al comprimir demasiado las características visuales. En lugar de reducir la resolución para ajustarse a las restricciones del modelo, la codificación adaptativa de Leopard optimiza dinámicamente la asignación de cada imagen, preservando detalles cruciales incluso cuando se manejan varias imágenes. Este enfoque permite a Leopard procesar imágenes ricas en texto, como informes científicos, sin perder precisión debido a una mala resolución de la imagen. Al emplear la mezcla de píxeles, Leopard puede comprimir largas secuencias de características visuales en secuencias más cortas y sin pérdidas, mejorando significativamente su capacidad para manejar entradas visuales complejas sin comprometer los detalles visuales.

La importancia de Leopard se vuelve aún más evidente al considerar los casos de uso práctico que aborda. En escenarios que involucran múltiples imágenes ricas en texto, Leopard supera sustancialmente a modelos anteriores como OpenFlamingo, VILA e Idefics2, que lucharon por generalizar a través de entradas visuales y textuales interrelacionadas. Las evaluaciones comparativas demostraron que Leopard superó a sus competidores por un amplio margen, logrando una mejora promedio de más de 9,61 puntos en pruebas comparativas clave con múltiples imágenes y texto rico. Por ejemplo, en tareas como SlideVQA y DocVQA de varias páginas, que requieren razonamiento sobre múltiples elementos visuales interconectados, Leopard generó consistentemente respuestas correctas donde otros modelos fallaron. Esta capacidad tiene un valor inmenso en aplicaciones del mundo real, como comprender documentos de varias páginas o analizar presentaciones, que son esenciales en entornos empresariales, educativos y de investigación.

Leopard representa un importante paso adelante para la IA multimodal, particularmente para tareas que involucran múltiples imágenes ricas en texto. Al abordar los desafíos de los datos limitados de ajuste de instrucciones y equilibrar la resolución de la imagen con la longitud de la secuencia, Leopard ofrece una solución sólida que puede procesar información visual compleja e interconectada. Su rendimiento superior en varios puntos de referencia, combinado con su enfoque innovador para la codificación adaptativa de alta resolución, subraya su impacto potencial en numerosas aplicaciones del mundo real. A medida que Leopard continúa evolucionando, sienta un precedente prometedor para el desarrollo de futuros MLLM que puedan comprender, interpretar y razonar mejor a través de diversas entradas multimodales.

Mira el Papel y Instrucción de leopardo Conjunto de datos sobre HuggingFace. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leopard: un modelo multimodal de lenguaje grande (MLLM) diseñado específicamente para manejar tareas de visión y lenguaje que involucran múltiples imágenes ricas en texto

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Inworld AI lanza Realtime TTS-2: un modelo de voz de circuito cerrado que se adapta a tu forma de hablar realmente

Simplificación del desarrollo de IA generativa con MLflow v3.10 en Amazon SageMaker AI

Cerrando la ‘brecha de expresividad’: cómo Voxtral TTS de Mistral está redefiniendo la clonación de voz multilingüe con una arquitectura híbrida autorregresiva y de coincidencia de flujo

You missed

Se revela el tráiler de La Odisea protagonizado por Matt Damon Tom Holland Anne Hathaway Robert Pattinson

Inworld AI lanza Realtime TTS-2: un modelo de voz de circuito cerrado que se adapta a tu forma de hablar realmente

La NASA acaba de publicar 12.000 fotografías de Artemis 2. Aquí están nuestras mejores opciones

La Armada acoge en Madrid a 35 jefes de marinas europeas para evaluar amenazas en el desorden internacional