Los grandes modelos de visión y lenguaje, o LVLM, pueden interpretar señales visuales y proporcionar respuestas sencillas para que los usuarios interactúen. Esto se logra fusionando hábilmente modelos de lenguaje de gran tamaño (LLM) con un ajuste fino de la instrucción visual a gran escala. Sin embargo, los LVLM solo necesitan conjuntos de datos hechos a mano o generados por LLM para alinearse mediante ajuste fino supervisado (SFT). Aunque funciona bien cambiar los LVLM de generadores de subtítulos a modelos que obedecen instrucciones, los LVLM aún pueden producir respuestas hirientes, mal intencionadas o inútiles. Esto sugiere que todavía necesitan estar más alineados con las preferencias humanas. Además, si bien investigaciones anteriores fomentan la organización de muestras de ajuste de instrucción visual en formas de múltiples turnos, la capacidad de los LVLM para interactuar está limitada por las conexiones débiles y la interdependencia entre los diferentes turnos. Aquí, la capacidad de interacción evalúa qué tan bien los LVLM pueden ajustar sus respuestas utilizando el contexto anterior en interacciones de varios turnos. Estos dos inconvenientes limitan el uso práctico de los LVLM como ayudas visuales.
El equipo de investigación de SRI International y la Universidad de Illinois Urbana-Champaign presenta DRESS, un LVLM que se enseña exclusivamente utilizando retroalimentación del lenguaje natural (NLF) producido por LLM en este trabajo (consulte la Figura 1). El equipo de investigación instruye a los LLM para que proporcionen comentarios detallados sobre las respuestas del LVLM proporcionándoles reglas específicas y anotaciones fotográficas extensas. De acuerdo con el proceso de creación de LLM alineados con los humanos, esta anotación de retroalimentación considera los tres criterios H: utilidad, honestidad e inofensividad. La retroalimentación mide la calidad general de las respuestas según los criterios 3H y proporciona una puntuación numérica y NLF. El método del equipo de investigación divide NLF en crítica y refinamiento. Esta es una clasificación novedosa. Si bien el NLF de refinamiento ofrece recomendaciones precisas a los LVLM sobre cómo mejorar sus respuestas para alinearse con la referencia de la verdad fundamental, el NLF de crítica evalúa las fortalezas y fallas de las respuestas. Esta clasificación proporciona una aplicación natural de dos tipos de NLF para hacer que los LVLM sean más aceptables para los humanos y mejorar sus capacidades de interacción.
El equipo de investigación generaliza la técnica de aprendizaje por refuerzo condicional para cumplir con el carácter no diferenciable de NLF y entrena a los LVLM con dicha retroalimentación. Específicamente, el equipo de investigación utiliza la pérdida de modelado lingüístico (LM) en las respuestas para entrenar a DRESS para generar respuestas equivalentes condicionadas a los dos NLF. El equipo de investigación perfecciona DRESS analizando e interpretando los resultados numéricos para que coincidan mejor con las preferencias del usuario. A través de interacciones de múltiples turnos durante la inferencia, el equipo de investigación entrena a DRESS para que aprenda la metahabilidad de refinar sus respuestas originales empleando el refinamiento NLF.
El equipo de investigación evalúa DRESS en interacciones de múltiples turnos, indicaciones adversas para evaluar la inofensividad, subtítulos de imágenes para evaluar la honestidad y preguntas visuales abiertas que responden para evaluar la utilidad. Los hallazgos de los experimentos muestran que, en comparación con los LVLM anteriores, DRESS puede proporcionar respuestas que se alinean con los valores humanos y tener capacidades de interacción superiores que le permiten aprender de la retroalimentación y modificar las respuestas según sea necesario de manera eficiente. Hasta donde saben, el esfuerzo del equipo de investigación es el primero en abordar la capacidad de interacción y los tres criterios 3H para los LVLM.
Las aportaciones del equipo de investigación se resumen a continuación:
• El equipo de investigación sugiere utilizar retroalimentación en lenguaje natural (NLF), que puede dividirse en crítica y refinamiento NLF, para mejorar la capacidad de los LVLM para interactuar y alinearse con las preferencias humanas.
• Al entrenar el modelo para proporcionar respuestas coincidentes condicionadas al NLF, el equipo de investigación generaliza el método de aprendizaje por refuerzo condicional para acomodar exitosamente el NLF no diferenciable. En comparación con el SOTA anterior, el modelo sugerido por el equipo de investigación, DRESS, demuestra mejoras relativas del 9,76 %, 11,52 % y 21,03 % según una evaluación sistemática de la alineación de utilidad, honestidad e inocuidad.
• El grupo de investigación genera y pone a disposición del público 63.000 ejemplos de NLF en lenguaje anotado, incluidas las características 3H. Además, el equipo de investigación creó un conjunto de datos disponible públicamente de 4,7 mil muestras para la alineación de la inocuidad y la evaluación de LVLM.
Revisar la Papel y Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.