Los investigadores de Bytedance introducen VGR: un nuevo modelo de lenguaje grande de razonamiento (MLLM) con capacidades de percepción visual mejoradas de grano fino

Por qué el razonamiento multimodal es importante para las tareas del idioma de la visión

El razonamiento multimodal permite a los modelos tomar decisiones informadas y responder preguntas combinando información visual y textual. Este tipo de razonamiento juega un papel central en la interpretación de los gráficos, respondiendo preguntas basadas en imágenes y comprender documentos visuales complejos. El objetivo es hacer máquinas capaces de usar la visión como lo hacen los humanos, no solo ver sino comprender lo que ven y conectarlo con el razonamiento basado en el lenguaje.

Desafíos en el razonamiento visual y el sesgo del lenguaje

Un desafío central en esta área es que muchos modelos dependen demasiado de la información lingüística, incluso para tareas que requieren interpretación visual. Esta confianza conduce a caídas de rendimiento en las aplicaciones pesadas de percepción. Cuando una pregunta requiere identificar un objeto específico en una imagen o interpretar datos numéricos en un gráfico, estos modelos a menudo fallan porque intentan responder utilizando patrones de lenguaje anteriores en lugar de analizar el contenido visual. Esto crea un cuello de botella para tareas que requieren una comprensión visual detallada para un razonamiento preciso y la toma de decisiones.

Limitaciones actuales de los modelos de lenguaje de visión existentes

Se han introducido varias herramientas para mejorar el rendimiento en estas tareas, pero la mayoría aún se quedan cortos cuando se le pide que analicen señales visuales detalladas. Algunos métodos utilizan subtítulos de imagen pregenerados o regiones anotadas para ayudar al modelo, mientras que otros confían en indicaciones estructuradas de múltiples pasos para alentar el razonamiento. A pesar de estos intentos, muchos modelos todavía están limitados por referencias visuales estáticas o tuberías inflexibles. Por ejemplo, los modelos que solo usan cadenas de pensamiento basadas en texto a menudo se pierden los matices visuales, y aquellos que dependen de indicaciones rígidas no son adecuadas para diversas consultas abiertas. Estas limitaciones han ralentizado el progreso en la creación de modelos que realmente integran la visión y el razonamiento.

Introducción de VGR: un marco de razonamiento visual conectado a tierra

Investigadores de Bytedance Inc. y la Universidad de Academia de Ciencias de la Universidad de China introdujeron un nuevo modelo llamado Razonamiento Visual fundamentado (VGR). La investigación introdujo un método que permite que el modelo interactúe dinámicamente con elementos visuales durante el razonamiento. VGR se destaca al no tratar la imagen y las transmisiones de texto por separado. En cambio, identifica áreas de imagen importantes mientras piensa en una pregunta y usa esas regiones como parte del proceso de respuesta. Junto con este modelo, los investigadores crearon un nuevo conjunto de datos, VGR-SFT, que permite al sistema aprender razonamiento visual con pistas de imagen integradas. Este enfoque elimina la necesidad de anotaciones manuales y permite un enfoque visual flexible.

Cómo la repetición visual selectiva permite un razonamiento de imagen eficiente

En el núcleo de VGR hay una técnica conocida como repetición visual selectiva. Esta característica faculta al modelo para recuperar partes específicas de una imagen cuando sea necesario. Utiliza un codificador de visión para extraer tokens de las regiones de imágenes y los almacena en un grupo de memoria visual. Durante el razonamiento, si el modelo encuentra una situación en la que se necesita información visual, señala una repetición y los tokens de imagen relevantes se reintroducen en el flujo de razonamiento. El sistema emplea una estrategia Anyres, expandiendo el apoyo de resolución y reduciendo el uso de tokens. En comparación con el método de referencia, VGR usa solo 144 tokens para instantáneas de imagen y 720 tokens para áreas de alta resolución, una reducción del 70% en los tokens totales. Para entrenar esta capacidad, el modelo se guía tanto por el aprendizaje supervisado estándar como por una función de pérdida auxiliar que mejora su capacidad para seleccionar e interpretar regiones de manera efectiva.

Resultados de referencia: precisión y eficiencia con menos tokens

El modelo se probó utilizando el Llava-Next-7B como línea de base y mostró fuertes resultados. En el punto de referencia MMStar, VGR logró una mejora de +4.1. También superó la línea de base en +7.1 en el punto de referencia AI2D y un impresionante +12.9 en Chartqa. Estos resultados se lograron mientras usaban solo el 30% del recuento de tokens visual requerido por la línea de base. En otra comparación, VGR mejoró el rendimiento en 6.4 puntos en MMStar y 14.1 en CHArTQA, mostrando su eficiencia y precisión con menos recursos. Este rendimiento demuestra la efectividad del mecanismo de reproducción selectiva para mejorar el razonamiento multimodal a través del compromiso visual dirigido.

Pensamientos finales: ir más allá del razonamiento centrado en el texto

En conclusión, este trabajo revela que la integración reflexiva de las señales visuales en el proceso de razonamiento puede superar las limitaciones de la deducción basada en el texto. Los investigadores abordaron un problema claro, desarrollaron un método preciso para resolverlo y demostraron su utilidad con resultados medibles. La solución es práctica y eficiente, redefiniendo cómo las señales visuales se pueden fusionar en sistemas de razonamiento inteligente.

Mira el Papel y Modelo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Los investigadores de Bytedance introducen VGR: un nuevo modelo de lenguaje grande de razonamiento (MLLM) con capacidades de percepción visual mejoradas de grano fino

ByEquipo de 7 minutos

Por qué el razonamiento multimodal es importante para las tareas del idioma de la visión

Desafíos en el razonamiento visual y el sesgo del lenguaje

Limitaciones actuales de los modelos de lenguaje de visión existentes

Introducción de VGR: un marco de razonamiento visual conectado a tierra

Cómo la repetición visual selectiva permite un razonamiento de imagen eficiente

Resultados de referencia: precisión y eficiencia con menos tokens

Pensamientos finales: ir más allá del razonamiento centrado en el texto

By Equipo de 7 minutos

Related Post

Las 21 mejores herramientas de inteligencia artificial con y sin código en 2026

Conozca Harness-1: un subagente de recuperación 20B capacitado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado en gpt-oss-20b

La nueva CLI Colab de Google permite a los desarrolladores y agentes de IA ejecutar Python en GPU y TPU Colab remotas desde la terminal

You missed

Las falsas orcas en Hawái están disminuyendo rápidamente y quedan menos de 140 individuos

Hoy en la historia de la Corte Suprema: 7 de junio de 1965

Explora el verdadero imperio de Lewis Hamilton fuera de la carrera deportiva

Hay que retirar el catamarán varado en la bahía de Pollensa