BRIDGETOWER: un novedoso modelo VL de lenguaje de visión basado en transformadores que aprovecha al máximo las características de diferentes capas en codificadores unimodales previamente entrenados
El aprendizaje de representación de visión y lenguaje (VL) es un campo en evolución centrado en la integración de información visual y textual para mejorar el rendimiento de los modelos…