Investigadores de la Universidad de Columbia y Apple presentan Ferret: un innovador modelo de lenguaje multimodal para la comprensión y descripción avanzadas de imágenes
Cómo facilitar el conocimiento espacial de los modelos es un tema de investigación importante en el aprendizaje visión-lenguaje. Este dilema conduce a dos capacidades requeridas: referenciación y conexión a tierra.…