Los recientes avances en Inteligencia Artificial han permitido el desarrollo de Grandes Modelos de Lenguaje (LLM) con una cantidad significativamente grande de parámetros, algunos de los cuales alcanzan miles de millones (por ejemplo, LLaMA-2 que viene en tamaños de 7B, 13B e incluso parámetros 70B). Con tales especificaciones, el modelo es capaz de lograr rendimientos muy altos en diversas tareas, lo que lo convierte en una herramienta poderosa para diversas aplicaciones de IA. La desventaja de esto, sin embargo, es que la implementación de tales modelos tiene un costo elevado y dispositivos como los teléfonos no poseen suficiente memoria para alojarlos.
En el pasado han surgido varias técnicas de poda para superar este problema. Sin embargo, muchos conducen a una degradación significativa del rendimiento después de la poda. Además, estos métodos no se extienden fácilmente a la poda estructurada. Por ello, un equipo de investigadores del Imperial College London, Qualcomm AI Research, QUVA Lab y la Universidad de Amsterdam han presentado Cirujano LLM, un marco para poda LLM no estructurada, semiestructurada y estructurada que poda el modelo en múltiples pasos, actualizando los pesos y las estimaciones de curvatura entre cada paso. Según los experimentos realizados por los investigadores, su marco permite la poda de LLM hasta en un 30% sin ninguna degradación significativa del rendimiento, lo que demuestra su eficacia.
El marco utiliza la magnitud del peso y las activaciones de los pases hacia adelante y la información del gradiente de los pases hacia atrás para relacionar los costos de eliminación de peso con el verdadero objetivo final. Los investigadores han mejorado los trabajos anteriores sobre poda de peso mediante el uso de aproximaciones más precisas a la curvatura de pérdida y más correlaciones de peso para actualizar los pesos restantes.
La precisión de la poda depende de estimar con precisión la curvatura local y, simultáneamente, superar el costo de memoria asociado con el almacenamiento de la curvatura exacta.
LLM Surgeon utiliza la aproximación KFAC para esta tarea, un método popular para la aproximación de la curvatura, debido a su eficiencia de memoria. Este método permite que el marco calcule la asignación dinámica de estructuras que se pueden eliminar. Además, también permite la actualización de los pesos restantes, contabilizando la eliminación.
El marco poda varios pesos a la vez para alcanzar el tamaño del modelo objetivo y al mismo tiempo infligir el menor costo posible. Además, LLM Surgeon poda en varios pasos para mejorar el rendimiento hasta la escasez. Los investigadores justificaron su enfoque demostrando que el rendimiento de la poda aumentaba con más disparos.
Los investigadores evaluaron el desempeño de LLM Surgeon en tareas de modelado del lenguaje en modelos como OPT y LLaMA-2, utilizando datos del conjunto de datos wikitext-2. Para la compresión estructurada, el marco permite reducir el tamaño del modelo hasta en un 30% sin ninguna pérdida significativa. Además, funciona mejor que todas las líneas de base, logrando el mejor rendimiento para cada tamaño objetivo. También para la compresión semiestructurada y no estructurada, LLM Surgeon supera todas las líneas de base, demostrando el mejor rendimiento en todos los tamaños objetivo.
En conclusión, LLM Surgeon aborda el problema que plantean los LLM con una cantidad significativamente grande de parámetros en términos de implementación. Los resultados muestran que puede podar filas y columnas de una variedad de LLM entre un 20 y un 30 % sin una pérdida significativa de rendimiento. También logra resultados de última generación en la poda no estructurada y semiestructurada de LLM, lo que permite un proceso de implementación más sencillo.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, Grupo LinkedIny Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.