Los investigadores de EPFL introducen memorias: un marco escalable para la edición de modelos de por vida en LLMS

El desafío de actualizar el conocimiento de LLM

Los LLM han mostrado un rendimiento sobresaliente para varias tareas a través de un pretrabenamiento extenso en vastas conjuntos de datos. Sin embargo, estos modelos con frecuencia generan información anticuada o inexacta y pueden reflejar sesgos durante la implementación, por lo que su conocimiento debe actualizarse continuamente. Los métodos tradicionales de ajuste fino son caros y susceptibles al olvido catastrófico. Esto ha motivado la edición de modelos de por vida, que actualiza el conocimiento del modelo de manera eficiente y local. Para generar predicciones correctas, cada edición requiere confiabilidad, generalización y localización. Los métodos como los no paramétricos logran ediciones localizadas precisas pero una generalización deficiente, mientras que los métodos paramétricos ofrecen una mejor generalización, pero sufren el olvido catastrófico.

Limitaciones de las técnicas de edición de modelos anteriores

Los trabajos anteriores han explorado activaciones neuronales dispersas en el aprendizaje continuo, con métodos como PackNet y Supermasks-in-Superposition asignando subconjuntos de parámetros disjuntos por tarea. Los enfoques basados ​​en gradientes, como GPM y SPARCL, mejoran la eficiencia a través de las actualizaciones ortogonales, pero se limitan a contextos de aprendizaje continuo. Enfoques paramétricos como Roma, Memit y Wise modifican los pesos mediante la ubicación de estrategias de edición de Then-edited o módulos auxiliares, pero sufren olvidando secuencias de edición extendidas. Los métodos no paramétricos como Grace y Loka almacenan el conocimiento externamente para preservar los pesos originales, lo que permite las ediciones locales precisas. Sin embargo, estos métodos se basan en coincidencias de entrada exactas, lo que limita sus capacidades de generalización.

Introducción de memorias: un enfoque estructurado para la edición de modelos

Investigadores de EPFL, Lausana, Suiza, han propuesto memorias (edición de modelos con sobrescritura mínima y retención informada), que logra un equilibrio óptimo entre confiabilidad, generalización y localidad para ediciones a gran escala. Introduce un módulo de memoria que consiste en una capa totalmente conectada dentro de un solo bloque de transformador donde ocurren todas las ediciones. Las memorias resuelven el olvido catastrófico al asignar subconjuntos de parámetros distintos a cada edición y recuperarlos durante la inferencia para activar solo un conocimiento relevante para indicaciones específicas. Además, el método utiliza la dispersión estructurada con máscaras dependientes de la muestra durante la edición, activando solo subconjuntos de parámetros específicos de inmediato. Distribuye nuevos conocimientos en todo el espacio de parámetros, reduciendo la sobrescritura y minimizando el olvido catastrófico.

Evaluación y resultados experimentales

Memoir funciona a través de un marco de memoria residual durante la inferencia, donde la salida editada integra salidas de capa original con salidas de memoria residual. Se evalúa contra las líneas de base como la gracia para el almacenamiento de conocimiento externo, diferir para el enrutamiento de tiempo de inferencia, métodos de rastreo causales como Roma, Memit y Alphaedit, y métodos basados ​​en la memoria como Wise. El ajuste fino directo sirve como una comparación de referencia adicional. Los experimentos se realizan en cuatro modelos de lenguaje autorregresivos: Llama-3-8B-Instructo, Mistral-7B, LLAMA-2-7B y GPT-J-6B, proporcionando una evaluación exhaustiva entre diferentes modelos y escalas para mostrar la efectividad y la generalización de MOMOIR.

En el conjunto de datos de suspensión de la pregunta ZSRE, Memoir logra una métrica promedio de 0.95 en LLAMA-3 con 1000 ediciones, superando todos los métodos anteriores por un margen de 0.16. Se ven resultados similares con Mistral, donde este método una vez más logra el puntaje promedio más alto, destacando su robustez y efectividad en varios LLM. Además, las memorias mantienen un rendimiento equilibrado óptimo con el aumento de los volúmenes de edición para la corrección de alucinación utilizando el conjunto de datos SelfCheckGPT. Las memorias mantienen los puntajes de la localidad saturada en el escenario más desafiante de 600 ediciones, al tiempo que logran métricas de perplejidad 57% y 77% más bajo que el sabio, el segundo método de rendimiento más mejor, en LLAMA-3 y Mistral, respectivamente.

Conclusión y direcciones futuras

En conclusión, las memorias es un marco escalable para la edición de modelos de por vida que equilibra efectivamente la confiabilidad, la generalización y la localidad utilizando técnicas innovadoras de dispersión. El método recupera las actualizaciones relevantes a través de la comparación de patrones de activación dispersa, lo que permite que las ediciones se generalicen a consultas reformuladas mientras se mantiene el comportamiento del modelo en indicaciones no relacionadas. Sin embargo, existen ciertas limitaciones, como la modificación de solo capas lineales individuales, lo que puede restringir el manejo de ediciones o conocimientos de Horizon largo que requieren cambios de modelo más amplios. Las direcciones futuras incluyen extender el enfoque de múltiples capas, estrategias de edición jerárquica y aplicación a modelos multimodales o de codificadores codificadores más allá del enfoque del transformador de decodificador actual.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.