Al utilizar el pensamiento lingüístico, los modelos de visión-lenguaje amplios (VLM, por sus siglas en inglés) han demostrado capacidades notables como agentes adaptables que pueden resolver una amplia gama de tareas. Una buena manera de mejorar el rendimiento de VLM es ajustarlos con datos de seguimiento de instrucciones visuales específicos. Su desempeño mejora enormemente con esta estrategia, que les enseña a obedecer instrucciones visuales precisas.
Sin embargo, este método tiene desventajas, ya que depende principalmente del aprendizaje supervisado a partir de información recopilada previamente. Puede que no sea el método ideal para capacitar a agentes en entornos interactivos de varios pasos que requieren comprensión del lenguaje además del reconocimiento visual. La razón de esto es que la diversidad necesaria para cubrir la amplia gama de escenarios de toma de decisiones que estos agentes pueden encontrar puede no estar presente en estos conjuntos de datos previamente recopilados.
El aprendizaje por refuerzo (RL) ofrece una forma de superar estas restricciones y desarrollar plenamente las capacidades de toma de decisiones de los agentes VLM en situaciones complejas de varios pasos. Si bien el aprendizaje por refuerzo ha sido eficaz para capacitar agentes para una variedad de tareas basadas en texto, aún no se ha utilizado ampliamente para optimizar los modelos de lenguaje vectorial (VLM) para tareas que requieren procesamiento visual y de lenguaje de un extremo a otro.
En una investigación reciente, un equipo de investigadores ha creado un marco algorítmico que utiliza el aprendizaje por refuerzo para optimizar los VLM y abordar este problema. Primero, el marco proporciona la descripción de la tarea al VLM, lo que hace que el modelo proporcione un razonamiento de cadena de pensamiento (CoT). Esta es una etapa importante porque permite al VLM estudiar pasos intermedios en el razonamiento que conducen lógicamente a la última acción basada en texto necesaria para finalizar la tarea.
La salida de texto producida por el VLM se procesa en acciones ejecutables para que el agente pueda comunicarse con su entorno. El agente es recompensado a través de estas interacciones de acuerdo con qué tan bien sus acciones logran los objetivos del trabajo. Estas recompensas se utilizan luego para utilizar RL para ajustar todo el VLM, mejorando su capacidad para tomar decisiones.
Los hallazgos empíricos de las pruebas han demostrado que este paradigma mejora enormemente el desempeño de los agentes VLM en las tareas de toma de decisiones. Por ejemplo, este enfoque permitió que un modelo de 7 mil millones de parámetros superara a modelos comerciales populares como GPT-4V y Gemini. El equipo compartió que descubrieron que estas ventajas de rendimiento solo son posibles con el componente de razonamiento CoT. El rendimiento general del modelo disminuyó significativamente cuando evaluaron esta estrategia sin utilizar el razonamiento CoT. Esto demuestra la importancia del razonamiento CoT en el marco de capacitación de RL y su función crucial para mejorar las capacidades de toma de decisiones de los VLM.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 42k+ ML
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.