La aparición de grandes modelos de lenguaje (LLM) como GPT, Claude, Gemini, LLaMA, Mistral, etc., ha acelerado enormemente los avances recientes en el procesamiento del lenguaje natural (NLP). El ajuste de la instrucción es un enfoque bien conocido para la formación de LLM. Este método permite a los LLM mejorar sus representaciones previamente entrenadas para seguir instrucciones humanas utilizando datos de instrucciones a gran escala y bien formateados. Sin embargo, estas tareas son complejas en sí mismas, lo que dificulta el ajuste del modelo. Para tareas generales, es posible que los modelos más grandes no puedan maximizar las pérdidas de actividades competitivas, lo que lleva a un rendimiento deficiente.
Aumentar la capacidad del modelo puede mejorar la eficacia del ajuste de instrucciones para tareas generales. Sin embargo, la mayoría de los LLM son modelos densos previamente entrenados creados utilizando una arquitectura de transformador, lo que restringe gravemente la escalabilidad al modificar las instrucciones. El ajuste de instrucciones ofrece la posibilidad de obtener un rendimiento sobresaliente en tareas generales al convertir modelos densos en modelos MoE. Las capas expertas de los modelos MoE se configuran inicialmente como duplicados de las capas originales de la red neuronal de avance (FFN) para realizar este cambio. El entrenamiento de modelos tan masivos se ve obstaculizado por los costos computacionales y las limitaciones de memoria de la GPU causadas por la necesidad de actualizar los pesos expertos en la capa MoE debido a la gran escala de parámetros de los LLM existentes.
Una nueva investigación realizada por el Laboratorio de Inteligencia Artificial de Shanghai y la Universidad China de Hong Kong presenta la elaboración de dispersión eficiente de parámetros (PESC), un método para transformar modelos densos en dispersos utilizando el modelo MoE. Al integrar adaptadores en las capas MoE de modelos dispersos, PESC permite diferenciar a los expertos sin cambiar sus pesos individualmente. Este método reduce drásticamente las necesidades de memoria de la GPU y los gastos computacionales. Debido a que los adaptadores están integrados, la capacidad del modelo se puede ampliar con un aumento mínimo de los parámetros.
Para diferenciar entre expertos sin cambiar los pesos de cada experto en las capas MoE, PESC inserta adaptadores en las capas MoE de modelos dispersos. Los investigadores también actualizan otros pesos de modelos dispersos utilizando la metodología QLoRA, un método PEFT popular.
Los investigadores entrenaron simultáneamente el modelo disperso con capas MoE en diversas habilidades, incluida la codificación, las matemáticas y otros talentos generales de muchas áreas, para ilustrar las capacidades de aprendizaje del modelo. Para ajustar las instrucciones, esta capacitación integró tres conjuntos de datos separados de diferentes dominios: conjuntos de datos SlimORCA, Magicoder y MetaMathQA. El conjunto de datos final incluyó 520.000 instrucciones después del filtrado y muestreo.
Además, han utilizado el método PESC para crear modelos dispersos de Camelidae. Camelidae-8Ï34B supera a GPT-3.5 en general y alcanza el rendimiento SOTA en todos los modelos dispersos de código abierto.
Revisar la Papel y Modelo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.