¿Estamos en el camino correcto para evaluar modelos de visión-lenguaje de gran tamaño? Este artículo sobre IA de China presenta MMStar: un punto de referencia multimodal de élite dependiente de la visión
Los modelos de lenguaje de visión grande (LVLM) muestran poderosas capacidades de comprensión y percepción visual. Estos logros han inspirado aún más a la comunidad de investigación a desarrollar una…