Los modelos de lenguaje grande (LLM) han logrado avances sustanciales en el campo del procesamiento del lenguaje natural (PLN). Al ampliar la cantidad de parámetros del modelo, los LLM muestran un mayor rendimiento en tareas como la generación de código y la respuesta a preguntas. Sin embargo, la mayoría de los LLM modernos, como Mistral, Gemma y Llama, son modelos densos, lo que significa que durante la inferencia utilizan todos los parámetros. Aunque esta arquitectura densa es sólida, requiere mucha potencia de procesamiento, lo que dificulta la creación de una IA que sea asequible y esté ampliamente disponible.
La computación condicional se ha estudiado como una solución para aumentar la eficiencia. Al activar sólo algunas de las neuronas del modelo en respuesta a la entrada, esta técnica reduce los cálculos inútiles. El cálculo condicional se puede implementar utilizando dos métodos principales. La estrategia de Mezcla de Expertos (MoE) es el primer método. Al predefinir restricciones en la estructura del modelo antes del entrenamiento, como determinar la cantidad de expertos que se activarán para una entrada particular, MoE introduce el cálculo condicional. Esta técnica de enrutamiento experto aumenta la eficiencia al activar selectivamente componentes específicos del modelo sin aumentar la complejidad informática.
El segundo método utiliza funciones de activación como la escasez intrínseca de ReLU. Para entradas no positivas, ReLU produce inherentemente cero, lo que da como resultado muchas neuronas inactivas que no aportan nada al cálculo. Esta escasez inherente puede mejorar la eficiencia de la inferencia.
Muchos LLM, como funciones de activación como GELU y Swish, no fomentan tanta escasez y son más difíciles de acelerar mediante el cálculo condicional a pesar de sus ventajas de eficiencia. ReLUfication, una técnica que sustituye ReLU a la función de activación original durante el preentrenamiento, se ha presentado como una solución a este problema. Sin embargo, el rendimiento puede verse afectado y este enfoque frecuentemente no logra alcanzar los grados apropiados de escasez.
Hay dos razones principales para las deficiencias de las técnicas actuales de ReLUficación. Primero, sustituir ReGLU por SwiGLU solo mejora ligeramente la escasez, lo que indica la necesidad de ajustes arquitectónicos más significativos. En segundo lugar, es posible que las habilidades del modelo no se recuperen por completo debido a la pequeña cantidad y variedad limitada de datos previos al entrenamiento.
En un estudio reciente, un equipo de investigadores de China sugirió dReLU, una nueva función de activación que aborda las ineficiencias de las activaciones negativas en el componente GLU, como una solución a estos problemas. Las pruebas en LLM a pequeña escala previamente entrenados con dReLU además de SwiGLU han demostrado que los modelos con dReLU funcionan a la par con los modelos SwiGLU, con niveles de escasez cercanos al 90%. El equipo ha mejorado el proceso de ReLUficación mediante la recopilación de datos de preentrenamiento heterogéneos de otras fuentes, como código, web y conjuntos de datos matemáticos.
El equipo también realizó un análisis de escasez en los LLM basados en MoE y descubrió que las redes de retroalimentación de los expertos muestran una activación escasa que es comparable a la de los LLM densos. Esta observación sugiere que la combinación de enfoques MoE con la escasez inducida por ReLU puede generar ventajas de eficiencia adicionales.
Los investigadores han creado TurboSparse-Mistral-47B y TurboSparse-Mixtral-47B aplicando este método a los modelos Mistral-7B y Mixtral-47B para validar la metodología. Las rigurosas pruebas han demostrado que el rendimiento de estos modelos mejorados no sólo es comparable al de sus versiones originales, sino frecuentemente mejor. El modelo TurboSparse-Mixtral-47B mejoró la dispersión del 75 % al 97 % al tiempo que redujo en gran medida los requisitos de procesamiento durante la inferencia, y el modelo TurboSparse-Mistral-7B logró una dispersión FFN promedio del 90 % al tiempo que mejoró las capacidades.
La combinación de estos modelos con PowerInfer demostró una aceleración promedio de 2,83 veces en las tareas de generación, lo que verifica la efectividad del enfoque sugerido para aumentar tanto la productividad como el rendimiento.
El equipo ha resumido sus principales contribuciones de la siguiente manera.
- Se ha introducido la función dReLU, que mejora la escasez de activación. En esta técnica solo se han utilizado 150 mil millones de tokens, o menos del 1% de los tokens de preentrenamiento habituales (alrededor de 15 T tokens).
- Se ha anunciado el lanzamiento de los modelos TurboSparse-Mistral7B y TurboSparse-Mixtral-47B. Estos modelos escasamente activados demuestran un rendimiento superior en comparación con sus versiones originales y densas.
- La evaluación ha revelado que se puede lograr una aceleración de 2 a 5 veces con estos modelos para inferencias prácticas. Con TurboSparse-Mixtral-47B, se pueden lograr hasta 10 tokens sin necesidad de una GPU.
Revisar la Papel y Modelos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 44k+ ML
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.