Los modelos visión-lenguaje (VLM) se utilizan cada vez más para generar respuestas a consultas sobre contenido visual. A pesar de sus avances, a menudo sufren un problema importante: generar respuestas plausibles pero incorrectas, también conocidas como alucinaciones. Estas alucinaciones pueden provocar una falta de confianza en estos sistemas, especialmente en aplicaciones del mundo real de alto riesgo. Evaluar la utilidad y veracidad de las respuestas generadas por VLM es un desafío porque requiere no solo comprender el contenido visual sino también verificar cada afirmación hecha en la respuesta. Los puntos de referencia tradicionales no han sido adecuados para abordar este desafío, ya sea porque limitan las evaluaciones a preguntas binarias y simplistas o porque se basan en un contexto incompleto para juzgar respuestas abiertas.
Investigadores de Salesforce AI Research han propuesto la Evaluación Programática VLM (PROVE), un nuevo paradigma de evaluación comparativa que evalúa las respuestas de VLM a consultas visuales abiertas. En PROVE, los investigadores utilizan una representación gráfica de escena de alta fidelidad construida a partir de leyendas de imágenes muy detalladas y emplean un modelo de lenguaje grande (LLM) para generar diversos pares de preguntas y respuestas (QA) junto con programas ejecutables para verificar cada par de QA. Este enfoque permite la creación de un conjunto de datos de referencia de 10,5 mil pares de control de calidad desafiantes y visualmente fundamentados. La estrategia de evaluación implica medir tanto la utilidad como la veracidad de las respuestas de VLM utilizando un marco unificado basado en comparaciones de gráficos de escenas. Esta evaluación programática proporciona una evaluación más confiable e interpretable del desempeño de VLM en comparación con puntos de referencia anteriores.
El punto de referencia PROVE utiliza representaciones detalladas de gráficos de escenas y programas ejecutables para verificar la exactitud de las respuestas de VLM. Los gráficos de escena, construidos a partir de leyendas de imágenes detalladas, contienen entidades, atributos y relaciones que representan la escena visual. Al solicitar un LLM, los investigadores generan pares de control de calidad abiertos y los correspondientes programas de verificación que garantizan que las preguntas sean desafiantes pero verificables. Solo los pares de control de calidad que se pueden verificar mediante programación se conservan en el punto de referencia, lo que da como resultado un conjunto de datos de alta calidad. La evaluación implica extraer representaciones de gráficos de escenas tanto de las respuestas del modelo como de las respuestas reales, y luego calcular puntuaciones basadas en el recuerdo y la precisión de estas representaciones, midiendo cuán útiles y veraces son las respuestas.
Los resultados de la evaluación muestran que los VLM actuales luchan por lograr un buen equilibrio entre utilidad y veracidad. Modelos como GPT-4o, Phi-3.5-Vision y Pixtral demostraron puntuaciones de utilidad más altas, pero no necesariamente mayor veracidad. El estudio también encontró que aumentar el tamaño del modelo tiende a mejorar la utilidad, pero no siempre mejora la veracidad. La evaluación de varios modelos reveló que las mejoras recientes en la capacitación de mejores VLM han llevado a una mayor utilidad, pero no se han traducido consistentemente en resultados veraces. En particular, la serie de modelos LLaVA-1.5 logró las mejores puntuaciones de veracidad, lo que indica que los modelos más pequeños y más enfocados podrían superar a los más grandes en el mantenimiento de la precisión.
En conclusión, PROVE presenta un avance significativo en la evaluación de la utilidad y veracidad de las respuestas generadas por VLM. Al aprovechar las representaciones detalladas de gráficos de escenas y la verificación programática, este punto de referencia proporciona un marco de evaluación más confiable e interpretable. Los hallazgos subrayan la necesidad de VLM que logren un equilibrio entre generar respuestas informativas y precisas, especialmente a medida que su uso en aplicaciones del mundo real continúa creciendo. Se espera que las investigaciones futuras se centren en mejorar tanto la utilidad como la veracidad de estos modelos mediante técnicas de formación avanzadas y nuevas estrategias de evaluación.
Mira el Papel y Tarjeta de conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.