El desarrollo de grandes modelos de lenguaje (LLM) como GPT y LLaMA ha marcado un hito importante. Estos modelos se han convertido en herramientas indispensables para diversas tareas de procesamiento del lenguaje natural. Sin embargo, crear estos modelos desde cero implica costos considerables, inmensos recursos computacionales y un consumo energético sustancial. Esto ha llevado a un creciente interés en desarrollar alternativas rentables. Uno de esos enfoques innovadores es la fusión de LLM existentes previamente capacitados en un modelo más potente y eficiente. Esta estrategia no sólo ofrece una reducción en el gasto de recursos sino que también aprovecha las fortalezas colectivas de varios modelos.
Fusionar varios LLM es un desafío, principalmente debido a su diversidad en arquitectura. Simplemente combinar sus ponderaciones no es factible, lo que requiere un enfoque más matizado. El objetivo de la fusión de conocimientos en los LLM es fusionar estos modelos para crear uno nuevo y más poderoso, maximizando así las fortalezas y minimizando los costos asociados con los modelos individuales. Este método de fusión tiene el potencial de mejorar el rendimiento en un espectro de tareas, proporcionando una herramienta versátil adaptable a diversas aplicaciones.
Los métodos convencionales para integrar modelos de lenguaje suelen implicar estrategias de conjunto y fusión de pesos. Los métodos de conjunto, que agregan resultados de múltiples modelos, enfrentan desafíos prácticos con los LLM debido a sus grandes requisitos de memoria y tiempo. La fusión de pesos, por otro lado, a menudo no produce resultados óptimos cuando se aplica a modelos con diferencias significativas en sus espacios de parámetros. Estas limitaciones requieren un enfoque diferente para combinar eficazmente las capacidades de varios LLM.
Los investigadores de la Universidad Sun Yat-sen y el Tencent AI Lab introdujeron un concepto innovador: la fusión de conocimientos para los LLM en respuesta a los desafíos antes mencionados. Este método aprovecha las distribuciones generativas de los LLM de origen, externalizando sus conocimientos y fortalezas y transfiriéndolos a un LLM de destino a través de una capacitación continua liviana. El núcleo de este enfoque radica en alinear y fusionar las distribuciones probabilísticas generadas por los LLM de origen. Este proceso implica desarrollar nuevas estrategias para alinear tokenizaciones y explorar métodos para fusionar distribuciones de probabilidad. Se pone un énfasis significativo en minimizar la divergencia entre las distribuciones probabilísticas de los LLM de origen y de destino.
La implementación de esta metodología es compleja y requiere una alineación detallada de las tokenizaciones en diferentes LLM. Esto es crucial para la fusión efectiva de conocimientos, ya que garantiza un mapeo adecuado de las matrices de distribución probabilística. El proceso de fusión implica evaluar la calidad de diferentes LLM y asignar distintos niveles de importancia a sus respectivas matrices de distribución en función de su calidad de predicción. Este enfoque matizado permite que el modelo fusionado aproveche el conocimiento colectivo y al mismo tiempo preserve las fortalezas únicas de cada LLM de origen.
El rendimiento de FuseLLM se probó rigurosamente utilizando tres LLM populares de código abierto con arquitecturas distintas: Llama-2, MPT y OpenLLaMA. La evaluación abarcó varios puntos de referencia, incluidos razonamiento, sentido común y tareas de generación de código. Los resultados fueron notables: el modelo fusionado superó a cada LLM de origen y a la línea de base en la mayoría de las tareas. El estudio demostró mejoras sustanciales en diversas capacidades, destacando la eficacia de FuseLLM para integrar las fortalezas colectivas de los LLM individuales.
La investigación ofrece varias ideas clave:
- FuseLLM presenta un método eficaz para la fusión LLM, superando las técnicas tradicionales de fusión de pesos y conjuntos.
- El modelo fusionado muestra capacidades superiores en tareas de razonamiento, sentido común y generación de código.
- El enfoque abre nuevas posibilidades para desarrollar LLM potentes y eficientes aprovechando los modelos existentes.
En conclusión, estudiar la fusión de conocimientos en los LLM introduce un enfoque pionero para desarrollar modelos lingüísticos. Al combinar las capacidades de diversos LLM, este método ofrece una excelente solución a los desafíos de la capacitación de modelos que requiere un uso intensivo de recursos. Los hallazgos de esta investigación demuestran la eficacia del enfoque FuseLLM y allanan el camino para futuros avances en el procesamiento del lenguaje natural.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.