Este artículo de IA de China presenta el conjunto de datos ArXiv multimodal: compuesto por ArXivCap y ArXivQA para mejorar la comprensión científica de los modelos de visión y lenguaje de gran tamaño
Los modelos de lenguaje grande (LLM) y potentes codificadores de visión se combinan para crear modelos de lenguaje-visión grande (LVLM). Modelos como GPT-4 y otros grandes sistemas de modelos de…