Sondeo de transformadores de imagen y lenguaje para la comprensión de los verbos

Conectar el lenguaje a la visión es un problema fundamental para muchos sistemas de inteligencia artificial del mundo real, como la recuperación de imágenes o la generación de descripciones para personas con discapacidad visual. El éxito en estas tareas requiere que los modelos relacionen diferentes aspectos del lenguaje, como objetos y verbos, con imágenes. Por ejemplo, para distinguir entre las dos imágenes en la columna del medio a continuación, los modelos deben diferenciar entre los verbos “atrapar” y “patear”. La comprensión de los verbos es particularmente difícil ya que requiere no sólo reconocer objetos, sino también cómo se relacionan entre sí los diferentes objetos en una imagen. Para superar esta dificultad, presentamos el conjunto de datos SVO-Probes y lo utilizamos para probar modelos de lenguaje y visión para la comprensión de verbos.

En particular, consideramos modelos de transformadores multimodales (p. ej., Lu et al., 2019; Chen et al., 2020; Tan y Bansal, 2019; Li et al., 2020), que han demostrado éxito en una variedad de lenguajes y visiones. tareas. Sin embargo, a pesar del sólido desempeño en los puntos de referencia, no está claro si estos modelos tienen una comprensión multimodal detallada. En particular, trabajos anteriores muestran que los modelos de lenguaje y visión pueden tener éxito en puntos de referencia sin comprensión multimodal: por ejemplo, responder preguntas sobre imágenes basadas únicamente en antecedentes del lenguaje (Agrawal et al., 2018) u objetos “alucinantes” que no están en la imagen. al subtitular imágenes (Rohrbach et al., 2018). Para anticipar las limitaciones del modelo, trabaje como Shekhar et al. proponer evaluaciones especializadas para probar modelos sistemáticamente para la comprensión del lenguaje. Sin embargo, los conjuntos de sondas anteriores están limitados en la cantidad de objetos y verbos. Desarrollamos SVO-Probes para evaluar mejor las posibles limitaciones en la comprensión de los verbos en los modelos actuales.

SVO-Probes incluye 48.000 pares de imágenes y oraciones y prueba la comprensión de más de 400 verbos. Cada oración se puede dividir en un triplete (o triplete SVO) y combinarse con imágenes de ejemplo positivas y negativas. Los ejemplos negativos difieren sólo en una forma: se cambia el sujeto, el verbo o el objeto. La figura anterior muestra ejemplos negativos en los que el sujeto (izquierda), el verbo (centro) o el objeto (derecha) no coinciden con la imagen. Esta formulación de tareas permite aislar con qué partes de la oración tiene más problemas un modelo. También hace que SVO-Probes sea más desafiante que las tareas estándar de recuperación de imágenes, donde los ejemplos negativos a menudo no tienen ninguna relación con la oración de consulta.

Para crear SVO-Probes, nosotros consultar una búsqueda de imágenes con tripletes SVO de un conjunto de datos de entrenamiento común, Conceptual Captions (Sharma et al. 2018). Debido a que la búsqueda de imágenes puede ser ruidosa, un paso de anotación preliminar filtra las imágenes recuperadas para garantizar que tengamos un conjunto limpio de pares imagen-SVO. Dado que los transformadores están entrenados en pares imagen-oración, no en pares imagen-SVO, necesitamos pares imagen-oración para probar nuestro modelo. Para recopilar oraciones que describan cada imagen, los anotadores escriben una oración corta para cada imagen que incluya el triplete SVO. Por ejemplo, dado el triplete SVO , un anotador podría escribir la oración “Un animal yace en la hierba”. Luego usamos las anotaciones SVO para emparejar cada oración con una imagen negativa y pedimos a los anotadores que verifiquen los negativos en un paso de anotación final. Consulte la figura siguiente para obtener más detalles.

Examinamos si los transformadores multimodales pueden clasificar con precisión los ejemplos como positivos o negativos. El siguiente gráfico de barras ilustra nuestros resultados. Nuestro conjunto de datos es un desafío: nuestro modelo de transformador multimodal estándar logra una precisión general del 64,3 % (la probabilidad es del 50 %). Mientras que la precisión es del 67,0% y el 73,4% en sujetos y objetos respectivamente, el rendimiento cae al 60,8% en los verbos. Este resultado muestra que el reconocimiento de verbos es realmente un desafío para los modelos de visión y lenguaje.

También exploramos qué arquitecturas de modelos funcionan mejor en nuestro conjunto de datos. Sorprendentemente, los modelos con modelado de imagen más débil funcionan mejor que el modelo de transformador estándar. Una hipótesis es que nuestro modelo estándar (con una mayor capacidad de modelado de imágenes) se adapta demasiado al conjunto de trenes. Dado que ambos modelos funcionan peor en otras tareas de lenguaje y visión, nuestra tarea de investigación específica ilumina las debilidades del modelo que no se observan en otros puntos de referencia.

En general, encontramos que a pesar del impresionante rendimiento en los puntos de referencia, los transformadores multimodales todavía tienen dificultades con la comprensión detallada, especialmente la comprensión verbal detallada. Esperamos que SVO-Probes pueda ayudar a impulsar la exploración de la comprensión verbal en modelos de lenguaje y visión e inspirar conjuntos de datos de sonda más específicos.

Visite nuestras sondas SVO punto de referencia y modelos en GitHub: benchmark y modelos.