Descubriendo cómo los transformadores de visión entienden las relaciones objetales: un enfoque en dos etapas del razonamiento visual
A pesar del éxito de Vision Transformers (ViT) en tareas como clasificación y generación de imágenes, enfrentan importantes desafíos en el manejo de tareas abstractas que involucran relaciones entre objetos.…