MINT-1T: un conjunto de datos entrelazados multimodales de billones de tokens de código abierto y un componente clave para entrenar LMM de modelos multimodales grandes
Los grandes conjuntos de datos previos al entrenamiento de código abierto son importantes para que la comunidad de investigación explore la ingeniería de datos y desarrolle modelos transparentes de código…