Este documento de IA presenta SRDF: un volante de datos autorrefinado para conjuntos de datos de navegación de visión y lenguaje de alta calidad
La navegación por visión y lenguaje (VLN) combina la percepción visual con la comprensión del lenguaje natural para guiar a los agentes a través de entornos 3D. El objetivo es…