Los modelos de recompensa supervisados por procesos (PRMS) ofrecen comentarios de grano fino y paso a paso sobre las respuestas del modelo, ayudando a seleccionar rutas de razonamiento efectivas para tareas complejas. A diferencia de los modelos de recompensa de salida (ORMS), que evalúan las respuestas basadas en las salidas finales, los PRM proporcionan evaluaciones detalladas en cada paso, lo que los hace particularmente valiosos para aplicaciones intensivas en razonamiento. Si bien los PRM se han estudiado ampliamente en tareas de lenguaje, su aplicación en entornos multimodales permanece en gran medida inexplorada. La mayoría de los modelos de recompensa en idioma de visión aún dependen del enfoque de ORM, destacando la necesidad de una mayor investigación sobre cómo los PRM pueden mejorar el aprendizaje y el razonamiento multimodal.
Los puntos de referencia de recompensas existentes se centran principalmente en modelos basados en texto, con algunos diseñados específicamente para PRM. En el dominio del idioma de visión, los métodos de evaluación generalmente evalúan las amplias capacidades del modelo, que incluyen conocimiento, razonamiento, equidad y seguridad. VL-Rewardbench es el primer punto de referencia que incorpora datos de preferencia de aprendizaje de refuerzo para refinar las tareas del idioma de visión intensivo en conocimiento. Además, el banco de recompensas multimodal amplía los criterios de evaluación más allá de las tareas de respuesta de preguntas visuales estándar (VQA), que cubren seis áreas clave: corrección, preferencia, conocimiento, razonamiento, seguridad y VQA) a través de anotaciones expertas. Estos puntos de referencia proporcionan una base para desarrollar modelos de recompensa más efectivos para el aprendizaje multimodal.
Investigadores de UC Santa Cruz, UT Dallas y Amazon Research Benchmarked VLLMS como ORMS y PRM en múltiples tareas, revelando que ninguno de los dos supera constantemente al otro. Para abordar las brechas de evaluación, introdujeron Vilbench, un punto de referencia que requiere retroalimentación de recompensas a paso, donde GPT-4O con cadena de pensamiento alcanzó solo el 27.3% de precisión. Además, recolectaron 73.6k muestras de recompensa en idioma de visión utilizando un algoritmo mejorado de búsqueda de árboles, entrenando un PRM 3B que mejoró la precisión de la evaluación en un 3,3%. Su estudio proporciona información sobre el modelado de recompensas en el lenguaje de la visión y destaca los desafíos en la evaluación multimodal del paso.
Los VLLM son cada vez más efectivos en varias tareas, particularmente cuando se evalúa para la escala del tiempo de prueba. Siete modelos se compararon utilizando el enfoque LLM-as-a-Judge para analizar sus habilidades críticas en cinco conjuntos de datos en idioma de visión. Se utilizó una configuración mejor de N (Bon), donde VLLMS obtuvo respuestas generadas por GPT-4O. Los resultados clave revelan que los ORM superan a los PRM en la mayoría de los casos, excepto en las tareas del mundo real. Además, los VLLM más fuertes no siempre se destacan como modelos de recompensa, y un enfoque híbrido entre ORM y PRM es óptimo. Además, los VLLM se benefician de las tareas pesadas de texto más que las visuales, lo que subraya la necesidad de modelos especializados de recompensas en idioma de visión.
Para evaluar la efectividad de VILPRM, se realizaron experimentos en Vilbench utilizando diferentes RMS y muestreadores de solución. El estudio comparó el rendimiento en múltiples VLLM, incluidos QWEN2.5-VL-3B, InternvL-2.5-8B, GPT-4O y O1. Los resultados muestran que los PRM generalmente superan los ORM, mejorando la precisión en un 1,4%, aunque las respuestas de O1 mostraron una diferencia mínima debido a detalles limitados. VILPRM superó a otros PRM, incluidos URSA, en un 0,9%, lo que demuestra una consistencia superior en la selección de respuesta. Además, los hallazgos sugieren que los VLLM existentes no son lo suficientemente robustos como modelos de recompensa, destacando la necesidad de PRMS especializados en el lenguaje de visión que funcionen mucho más allá de las tareas de razonamiento matemático.
En conclusión, los PRM en idioma de visión funcionan bien cuando los pasos de razonamiento se segmentan, como se ve en tareas estructuradas como las matemáticas. Sin embargo, en funciones con divisiones de pasos poco claras, los PRM pueden reducir la precisión, particularmente en casos visuales dominantes. Priorizar los pasos clave en lugar de tratar todos igualmente mejora el rendimiento. Además, los modelos actuales de recompensa multimodal luchan con la generalización, ya que los PRM entrenados en dominios específicos a menudo fallan en otros. Mejorar la capacitación incorporando diversas fuentes de datos y mecanismos de recompensa adaptativos es crucial. La introducción de Vilreward-73K mejora la precisión de PRM en un 3,3%, pero se necesitan avances adicionales en los marcos de segmentación y evaluación de pasos para modelos multimodales robustos.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.