Los avances recientes en los modelos de lenguajes grandes (LLM) han dado lugar a modelos que contienen miles de millones o incluso billones de parámetros, logrando un rendimiento notable en todos los dominios. Sin embargo, su enorme tamaño plantea desafíos en la implementación práctica debido a los estrictos requisitos de hardware. La investigación se ha centrado en modelos de escala para mejorar el rendimiento, guiados por leyes de escala establecidas. Esta escalada subraya la necesidad de abordar las limitaciones de hardware para facilitar la utilización generalizada de estos poderosos LLM.
Trabajos anteriores abordan el desafío de implementar modelos entrenados masivos centrándose en técnicas de compresión de modelos. Estas técnicas, incluidas la cuantificación y la poda, tienen como objetivo reducir los costos de inferencia. Si bien la cuantificación reduce la precisión, la poda elimina parámetros redundantes sin necesidad de volver a entrenar. Los avances recientes en las técnicas de poda se han mostrado prometedores a la hora de simplificar la compresión de modelos para modelos de lenguaje grandes, lo que destaca la importancia de explorar enfoques de poda eficientes adaptados a dichos modelos.
Los investigadores de Baichuan Inc. y el Instituto de Software del Laboratorio de Procesamiento de Información de China, Academia de Ciencias de China, presentan un enfoque único. GPT corto, analizar la redundancia por capas en LLM utilizando Block Influence (BI), midiendo las transformaciones de estado oculto. Su método supera significativamente las complejas técnicas de poda anteriores al identificar y eliminar capas redundantes en función de las puntuaciones de BI. Demuestran que los LLM exhiben una redundancia de capas sustancial, lo que ofrece una estrategia de poda sencilla pero eficaz. Este método, ortogonal a la cuantificación, reduce los parámetros y el cálculo mientras mantiene un alto rendimiento, allanando el camino para una formación LLM más eficiente.
Su enfoque de eliminación de capas LLM propuesto comienza cuantificando la redundancia de capas, particularmente en arquitecturas basadas en Transformer. La métrica de BI evalúa el impacto de cada capa en las transformaciones de estados ocultos durante la inferencia. Las capas con puntuaciones de BI bajas, que indican un impacto mínimo, se eliminan para reducir los costos de inferencia sin comprometer el rendimiento del modelo. El método implica construir un conjunto de calibración, recopilar estados ocultos, calcular puntuaciones de BI y eliminar de forma iterativa capas menos importantes según las clasificaciones de BI.
Los experimentos comparativos del método propuesto con respecto a puntos de referencia (incluidos MMLU, CMMLU y CMNLI) y técnicas de referencia (incluidos LLMPru, SliceGPT y LaCo) se utilizan comúnmente en la evaluación de LLM. Los resultados muestran que el modelo podado utilizando el enfoque propuesto supera consistentemente a los métodos de referencia en múltiples puntos de referencia del lenguaje natural. Además, reducir el número de capas resulta más eficaz que reducir las dimensiones de incrustación, lo que indica una redundancia más profunda dentro de los modelos.
En conclusión, los investigadores de Baichuan Inc. y el Instituto de Software del Laboratorio de Procesamiento de Información de China de la Academia de Ciencias de China presentan GPT corto, un enfoque de poda LLM único basado en redundancia de capas y entropía de atención. Los resultados muestran una redundancia significativa por capas en los LLM, lo que permite la eliminación de capas que contribuyen mínimamente sin comprometer el rendimiento. La estrategia propuesta mantiene hasta el 95% del rendimiento del modelo y al mismo tiempo reduce el recuento de parámetros y los requisitos computacionales en aproximadamente un 25%, superando los métodos de poda anteriores. Este enfoque, simple pero efectivo, sugiere redundancia basada en profundidad en LLM y ofrece compatibilidad con otras técnicas de compresión para una reducción versátil del tamaño del modelo.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
También te puede gustar nuestro Cursos GRATUITOS de IA….
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.