YuLan-Mini: un modelo de lenguaje eficiente en datos abiertos de 2.42 mil millones de parámetros con capacidades de contexto largo y técnicas de capacitación avanzadas

Los modelos de lenguaje grande (LLM) creados utilizando arquitecturas transformadoras dependen en gran medida del entrenamiento previo con datos a gran escala para predecir tokens secuenciales. Este proceso complejo y que requiere muchos recursos requiere una enorme infraestructura computacional y canales de datos bien construidos. La creciente demanda de LLM eficientes y accesibles ha llevado a los investigadores a explorar técnicas que equilibren el uso y el rendimiento de los recursos, enfatizando el logro de resultados competitivos sin depender de recursos a escala industrial.

El desarrollo de LLM está lleno de desafíos, especialmente en lo que respecta a la computación y la eficiencia de los datos. Los modelos de preentrenamiento con miles de millones de parámetros exigen técnicas avanzadas y una infraestructura sustancial. Los datos de alta calidad y los métodos de entrenamiento sólidos son cruciales, ya que los modelos enfrentan inestabilidad de gradiente y degradación del rendimiento durante el entrenamiento. Los LLM de código abierto a menudo tienen dificultades para igualar a sus homólogos propietarios debido al acceso limitado a la potencia computacional y a conjuntos de datos de alto calibre. Por lo tanto, el desafío radica en crear modelos eficientes y de alto rendimiento, que permitan a grupos de investigación más pequeños participar activamente en el avance de la tecnología de IA. Resolver este problema requiere innovación en el manejo de datos, la estabilización del entrenamiento y el diseño arquitectónico.

Las investigaciones existentes en la formación de LLM enfatizan los canales de datos estructurados, utilizando técnicas como la limpieza de datos, la programación dinámica y el aprendizaje curricular para mejorar los resultados del aprendizaje. Sin embargo, la estabilidad sigue siendo un problema persistente. La capacitación a gran escala es susceptible a explosiones de gradientes, picos de pérdidas y otras dificultades técnicas, que requieren una optimización cuidadosa. El entrenamiento de modelos de contexto largo introduce una complejidad adicional a medida que las demandas computacionales de los mecanismos de atención crecen cuadráticamente con la longitud de la secuencia. Los enfoques existentes, como los optimizadores avanzados, las estrategias de inicialización y la generación de datos sintéticos, ayudan a aliviar estos problemas, pero a menudo se quedan cortos cuando se escalan a modelos de tamaño completo. La necesidad de métodos escalables, estables y eficientes en la formación de LLM es más urgente que nunca.

Investigadores de la Escuela Gaoling de Inteligencia Artificial de la Universidad Renmin de China, desarrollaron YuLan-Mini. Con 2,42 mil millones de parámetros, este modelo de lenguaje mejora la eficiencia y el rendimiento computacional con métodos eficientes en datos. Aprovechando los datos disponibles públicamente y centrándose en técnicas de capacitación eficientes en datos, YuLan-Mini logra un rendimiento notable comparable a los modelos industriales más grandes.

YuLan-MiniLa arquitectura de incorpora varios elementos innovadores para mejorar la eficiencia de la formación. Su diseño de transformador solo decodificador emplea vinculación integrada para reducir el tamaño de los parámetros y mejorar la estabilidad del entrenamiento. El modelo utiliza Rotary Positional Embedding (ROPE) para manejar contextos largos de manera efectiva, extendiendo la longitud de su contexto a 28,672 tokens, un avance con respecto a los modelos típicos. Otras características clave incluyen funciones de activación SwiGLU para una mejor representación de los datos y una estrategia de recocido cuidadosamente diseñada que estabiliza el entrenamiento mientras maximiza la eficiencia del aprendizaje. Los datos sintéticos fueron fundamentales, ya que complementaron los 1,08 billones de tokens de datos de entrenamiento obtenidos de páginas web abiertas, repositorios de códigos y conjuntos de datos matemáticos. Estas características permiten YuLan-Mini para ofrecer un rendimiento sólido con un presupuesto informático limitado.

YuLan-MiniEl rendimiento de logró puntuaciones de 64,00 en HumanEval en escenarios de cero disparos, 37,80 en MATH-500 en configuraciones de cuatro disparos y 49,10 en MMLU en tareas de cinco disparos. Estos resultados subrayan su ventaja competitiva, ya que el rendimiento del modelo es comparable al de sus homólogos mucho más grandes y que consumen muchos recursos. La innovadora extensión de la longitud del contexto a 28K tokens permitió YuLan-Mini para sobresalir en escenarios de texto largo y al mismo tiempo mantener una alta precisión en tareas de texto corto. Esta doble capacidad lo diferencia de muchos modelos existentes, que a menudo sacrifican uno por el otro.

Las conclusiones clave de la investigación incluyen:

  • Utilizando un canal de datos meticulosamente diseñado, YuLan-Mini reduce la dependencia de conjuntos de datos masivos y al mismo tiempo garantiza un aprendizaje de alta calidad.
  • Técnicas como la optimización sistemática y el recocido previenen problemas comunes como picos de pérdida y explosiones de gradiente.
  • Ampliar la longitud del contexto a 28.672 tokens mejora la aplicabilidad del modelo a tareas complejas de texto largo.
  • A pesar de sus modestos requisitos computacionales, YuLan-Mini logra resultados comparables a los de modelos mucho más grandes, demostrando la efectividad de su diseño.
  • La integración de datos sintéticos mejora los resultados de la capacitación y reduce la necesidad de conjuntos de datos propietarios.

En conclusión, YuLan-Mini es una gran nueva incorporación a los LLM eficientes en evolución. Su capacidad para ofrecer un alto rendimiento con recursos limitados aborda barreras críticas para la accesibilidad de la IA. El enfoque del equipo de investigación en técnicas innovadoras, desde la eficiencia de los datos hasta la estabilidad del entrenamiento, resalta el potencial de que la investigación a menor escala contribuya significativamente al campo. Con solo 1,08T de tokens, YuLan-Mini establece un punto de referencia para los LLM que utilizan eficientemente los recursos.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.