YuLan-Mini: un modelo de lenguaje eficiente en datos abiertos de 2.42 mil millones de parámetros con capacidades de contexto largo y técnicas de capacitación avanzadas
Los modelos de lenguaje grande (LLM) creados utilizando arquitecturas transformadoras dependen en gran medida del entrenamiento previo con datos a gran escala para predecir tokens secuenciales. Este proceso complejo y…