Intel Labs explora adaptadores de bajo rango y búsqueda de arquitectura neural de compresión LLM

Los modelos de lenguaje grande (LLM) se han vuelto indispensables para varias aplicaciones de procesamiento del lenguaje natural, incluida la traducción automática, el resumen de texto y la IA conversacional. Sin embargo, su creciente complejidad y tamaño han llevado a desafíos significativos de eficiencia computacional y consumo de memoria. A medida que estos modelos crecen, la demanda de recursos los hace difíciles de implementar en entornos con capacidades computacionales limitadas.

El principal obstáculo con LLMS radica en sus requisitos computacionales masivos. La capacitación y el ajuste de estos modelos implican miles de millones de parámetros, haciéndolos intensivos en recursos y limitando su accesibilidad. Los métodos existentes para mejorar la eficiencia, como el ajuste fino de los parámetros (PEFT), proporcionan cierto alivio, pero a menudo comprometen el rendimiento. El desafío es encontrar un enfoque que pueda reducir significativamente las demandas computacionales mientras mantiene la precisión y efectividad del modelo en los escenarios del mundo real. Los investigadores han estado explorando métodos que permiten un ajuste eficiente del modelo sin requerir recursos computacionales extensos.

Investigadores de Intel Labs e Intel Corporation han introducido un enfoque que integra la adaptación de bajo rango (LORA) con técnicas de búsqueda de arquitectura neuronal (NAS). Este método busca abordar las limitaciones de los enfoques tradicionales de ajuste fino al tiempo que mejora la eficiencia y el rendimiento. El equipo de investigación desarrolló un marco que optimiza el consumo de memoria y la velocidad computacional al aprovechar las representaciones estructuradas de bajo rango. La técnica implica una super red para compartir el peso que ajusta dinámicamente las subestructuras para mejorar la eficiencia del entrenamiento. Esta integración permite que el modelo se ajuste de manera efectiva mientras mantiene una huella computacional mínima.

La metodología introducida por Intel Labs se centra en Lonas (búsqueda de arquitectura neuronal de bajo rango), que emplea adaptadores de lora elásticos para el ajuste del modelo. A diferencia de los enfoques convencionales que requieren ajuste fino completo de LLMS, Lonas permite la activación selectiva de las subestructuras modelo, reduciendo la redundancia. La innovación clave radica en la flexibilidad de los adaptadores elásticos, que se ajustan dinámicamente en función de los requisitos del modelo. El enfoque está respaldado por búsquedas de sub-red heurística que agilizan aún más el proceso de ajuste. Al centrarse solo en los parámetros del modelo relevante, la técnica logra un equilibrio entre la eficiencia computacional y el rendimiento. El proceso está estructurado para permitir la activación selectiva de estructuras de bajo rango mientras se mantiene una alta velocidad de inferencia.

La evaluación del rendimiento del método propuesto destaca sus mejoras significativas sobre las técnicas convencionales. Los resultados experimentales indican que Lonas logra una aceleración de inferencia de hasta 1.4x mientras reduce los parámetros del modelo en aproximadamente un 80%. Cuando se aplica a Llama-7B de ajuste fino en un conjunto de datos de razonamiento de sentido común unificado de 15k, Lonas demostró un puntaje de precisión promedio de 65.8%. Un análisis comparativo de diferentes configuraciones de Lonas mostró que la optimización de la subred heurística logró una aceleración de inferencia de 1.23x, mientras que las configuraciones de la subred de búsqueda arrojaron aceleraciones de 1.28x y 1.41x. Además, la aplicación de Lonas a Mistral-7B-V0.3 en tareas GSM8K aumentó la precisión del 44.1% al 50.1%, manteniendo la eficiencia en los diferentes tamaños del modelo. Estos hallazgos confirman que la metodología propuesta mejora significativamente el rendimiento de los LLM al tiempo que reduce los requisitos computacionales.

Las mejoras adicionales al marco incluyen la introducción de cizallas, una estrategia avanzada de ajuste fino que se basa en Lonas. Las cizallas utilizan la búsqueda del adaptador de bajo rango neural (NLS) para restringir la elasticidad al rango del adaptador, reduciendo los cálculos innecesarios. El enfoque aplica escasez al modelo base utilizando métricas predefinidas, asegurando que el ajuste fino sea eficiente. Esta estrategia ha sido particularmente efectiva para mantener la precisión del modelo al tiempo que reduce el número de parámetros activos. Otra extensión, SQFT, incorpora escasez y baja precisión numérica para un ajuste mejorado mejorado. Utilizando técnicas de cuantización, SQFT asegura que los modelos escasos se puedan ajustar sin perder eficiencia. Estos refinamientos destacan la adaptabilidad de Lonas y su potencial para una mayor optimización.

La integración de Lora y Nas ofrece un enfoque transformador para modelo de lenguaje grande mejoramiento. Al aprovechar representaciones estructuradas de bajo rango, la investigación demuestra que la eficiencia computacional puede mejorarse significativamente sin comprometer el rendimiento. El estudio realizado por Intel Labs confirma que la combinación de estas técnicas reduce la carga de ajuste al tiempo que garantiza la integridad del modelo. La investigación futura podría explorar más optimizaciones, incluida la selección mejorada de la sub-red y las estrategias heurísticas más eficientes. Este enfoque establece un precedente para hacer que los LLM sean más accesibles y desplegables en diversos entornos, allanando el camino para modelos de IA más eficientes.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo (Promocionado)


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.