NVIDIA AI presenta Omni-RGPT: un modelo de lenguaje grande multimodal unificado para una comprensión perfecta a nivel regional en imágenes y videos

Los modelos multimodales de lenguaje grande (MLLM) unen la visión y el lenguaje, lo que permite una interpretación eficaz del contenido visual. Sin embargo, lograr una comprensión precisa y escalable a nivel regional de imágenes estáticas y vídeos dinámicos sigue siendo un desafío. Las inconsistencias temporales, las ineficiencias de escala y la comprensión limitada del video obstaculizan el progreso, particularmente en el mantenimiento de representaciones consistentes de objetos y regiones en los cuadros de video. La deriva temporal, causada por cambios de movimiento, escala o perspectiva, junto con la dependencia de métodos computacionalmente pesados, como cuadros delimitadores o características alineadas con regiones de interés (RoI), aumenta la complejidad y limita el análisis de video en tiempo real y a gran escala.

Estrategias recientes, como las coordenadas de región textual, los marcadores visuales y las funciones basadas en RoI, han intentado abordar estos problemas. Sin embargo, a menudo no logran garantizar la coherencia temporal entre fotogramas ni procesar de manera eficiente grandes conjuntos de datos. Los cuadros delimitadores carecen de solidez para el seguimiento de múltiples fotogramas y el análisis de fotogramas estáticos pasa por alto relaciones temporales intrincadas. Si bien innovaciones como la incorporación de coordenadas en indicaciones textuales y el uso de marcadores basados ​​en imágenes han avanzado en este campo, una solución unificada para los dominios de imágenes y videos sigue fuera de su alcance.

Investigadores de NVIDIA y la Universidad de Yonsei desarrollaron Omni-RGPTuna novela multimodal modelo de lenguaje grande diseñado para lograr una comprensión perfecta a nivel regional en imágenes y videos para abordar estos desafíos. Este modelo introduce Marca simbólicaun método innovador que incorpora tokens específicos de la región en indicaciones visuales y de texto, estableciendo una conexión unificada entre las dos modalidades. El sistema Token Mark reemplaza los enfoques tradicionales basados ​​en RoI al definir un token único para cada región de destino, que permanece consistente en todos los cuadros de un video. Esta estrategia evita la deriva temporal y reduce los costos computacionales, lo que permite un razonamiento sólido para entradas estáticas y dinámicas. La inclusión de un cabezal de guía de región temporal mejora aún más el rendimiento del modelo en datos de video al clasificar tokens visuales para evitar la dependencia de mecanismos de seguimiento complejos.

Omni-RGPT aprovecha un conjunto de datos a gran escala recientemente creado llamado RegVID-300k, que contiene 98 000 videos únicos, 214 000 regiones anotadas y 294 000 muestras de instrucciones a nivel de región. Este conjunto de datos se construyó combinando datos de diez conjuntos de datos de video públicos, ofreciendo instrucciones diversas y detalladas para tareas específicas de la región. El conjunto de datos admite el razonamiento visual de sentido común, los subtítulos basados ​​en regiones y la comprensión de expresiones de referencia. A diferencia de otros conjuntos de datos, RegVID-300k incluye subtítulos detallados con contexto temporal y mitiga las alucinaciones visuales mediante técnicas de validación avanzadas.

Omni-RGPT logró resultados de última generación en varios puntos de referencia, incluido un 84,5 % de precisión en el conjunto de datos Causal-VidQA, que evalúa el razonamiento temporal y espacial en secuencias de vídeo. El modelo superó a los métodos existentes como MotionEpic en más del 5 % en algunas subtareas, lo que demuestra un rendimiento superior en predicción y razonamiento contrafactual. De manera similar, el modelo se destacó en tareas de subtítulos de video, logrando altas puntuaciones METEOR en conjuntos de datos desafiantes como Vid-STG y BenSMOT. El modelo logró una precisión notable para tareas basadas en imágenes en el conjunto de datos de Visual Commonsense Reasoning (VCR), superando a los métodos específicamente optimizados para dominios de imágenes.

Varias conclusiones clave de la investigación sobre Omni-RGPT incluyen:

  1. Este enfoque permite una comprensión consistente y escalable a nivel regional al incorporar tokens predefinidos en entradas visuales y de texto. Esto evita la deriva temporal y admite un razonamiento fluido entre fotogramas.
  2. El conjunto de datos proporciona anotaciones diversas, detalladas y detalladas, lo que permite que el modelo sobresalga en tareas de vídeo complejas. Incluye 294.000 instrucciones a nivel regional y aborda las lagunas en los conjuntos de datos existentes.
  3. Omni-RGPT demostró un rendimiento superior en pruebas comparativas como Causal-VidQA y VCR, logrando mejoras de precisión de hasta un 5 % en comparación con los modelos líderes.
  4. El diseño del modelo reduce la sobrecarga computacional al evitar la dependencia de las coordenadas del cuadro delimitador o de los tracklets de video completos, lo que lo hace adecuado para aplicaciones del mundo real.
  5. El marco integra perfectamente tareas de imagen y vídeo bajo una única arquitectura, logrando un rendimiento excepcional sin comprometer la eficiencia.

En conclusión, Omni-RGPT aborda desafíos críticos en el aprendizaje multimodal específico de una región mediante la introducción de Token Mark y un nuevo conjunto de datos para respaldar la detección.AIComprensión dirigida en imágenes y vídeos. El diseño escalable del modelo y su rendimiento de última generación en diversas tareas establecen un nuevo punto de referencia en este campo. Omni-RGPT proporciona una base sólida para futuras investigaciones y aplicaciones prácticas en IA al eliminar la deriva temporal, reducir la complejidad computacional y aprovechar datos a gran escala.


Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.