Con la adopción generalizada de los modelos de lenguaje grande (LLM), la búsqueda de formas eficientes de ejecutar estos modelos en hardware de consumo ha ganado importancia. Una estrategia prometedora implica el uso de escasa mezcla de expertos (MoE) arquitecturas, donde solo las capas de modelo seleccionadas están activas para una entrada determinada. Esta característica permite que los modelos de lenguaje basados en MoE generen tokens más rápido que sus contrapartes más densos. Sin embargo, el inconveniente es un mayor tamaño del modelo debido a la presencia de múltiples “expertos”, lo que hace que los últimos modelos de lenguaje MoE sean difíciles de ejecutar sin GPU de alta gama.
Para abordar este desafío, los autores de este artículo profundizan en el problema de ejecutar grandes modelos de lenguaje MoE en hardware de consumo. Se basan en algoritmos de descarga de parámetros e introducen una estrategia novedosa que aprovecha las propiedades inherentes de los LLM del MoE.
El documento explora dos vías principales para ejecutar estos modelos en configuraciones de hardware más asequibles: comprimir los parámetros del modelo o descargarlos a un medio de almacenamiento menos costoso, como RAM o SSD. Es importante tener en cuenta que la optimización propuesta se centra principalmente en la inferencia más que en el entrenamiento.
Antes de profundizar en las estrategias específicas, comprendamos los conceptos de descarga de parámetros y combinación de expertos. La descarga de parámetros implica mover los parámetros del modelo a una memoria más barata, como la RAM o SSD del sistema, y cargarlos justo a tiempo cuando sea necesario para el cálculo. Este enfoque es particularmente efectivo para modelos de aprendizaje profundo que siguen un orden de capas fijo, lo que permite el envío previo de los parámetros de la siguiente capa en segundo plano.
El modelo MoE se basa en un concepto más antiguo de entrenamiento de conjuntos de modelos especializados (“expertos”) con una función de activación para seleccionar al experto apropiado para una tarea determinada. El estudio utiliza modelos MoE populares de acceso abierto, Mixtral-8x7B, debido a su capacidad para acomodar a los no expertos en una fracción de la memoria GPU disponible.
La carga de trabajo de inferencia generativa implica dos fases: codificar el mensaje de entrada y generar tokens condicionados a ese mensaje. En particular, los modelos del MoE exhiben un patrón (que se muestra en la Figura 1) en el que se asignan expertos individuales a distintas subtareas. Para aprovechar este patrón, los autores introducen el concepto de Localidad experta y almacenamiento en caché LRU. Al mantener activos a los expertos en la memoria de la GPU como “caché” para tokens futuros, observan una aceleración significativa en la inferencia para los modelos MoE modernos.
El documento presenta Carga de expertos especulativos para abordar el desafío del tiempo de carga experto. A diferencia de los modelos densos, la descarga de MoE no puede superponer de manera efectiva la carga de expertos con el cálculo. Los autores proponen adivinar los probables próximos expertos basándose en la función de activación de los estados ocultos de la capa anterior para superar esta limitación. Este enfoque de carga especulativa resulta eficaz para acelerar la inferencia de la siguiente capa.
Además, los autores exploran la cuantificación de MoE y observan que los modelos comprimidos tardan menos en cargarse en la GPU. Ellos usan Cuantización semicuadrática (HQQ) por sus capacidades de cuantificación sin datos, logrando mejores compensaciones entre calidad y tamaño al cuantificar a los expertos a un ancho de bits más bajo.
El artículo concluye con una evaluación de las estrategias propuestas utilizando los modelos Mixtral-8x7B y Mixtral-8x7B-Instruct. Se proporcionan resultados para la recuperación de expertos (que se muestra en la Figura 2), algoritmos de compresión de modelos (que se muestran en la Tabla 1) y latencia de inferencia en varias configuraciones de hardware (que se muestran en la Tabla 2). Los hallazgos indican un aumento significativo en la velocidad de generación en hardware de consumo, lo que hace que los modelos MoE grandes sean más accesibles para la investigación y el desarrollo.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, LinkedIn Grarriba, Gorjeoy Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.