EM-LLM: una arquitectura novedosa y flexible que integra aspectos clave de la memoria episódica humana y la cognición de eventos en modelos de lenguaje basados ​​en transformadores

A pesar de sus capacidades en expansión, los modelos de lenguaje de gran tamaño (LLM) necesitan ayuda para procesar contextos extensos. Estas limitaciones se deben a que las arquitecturas basadas en Transformer tienen dificultades para extrapolar más allá del tamaño de su ventana de entrenamiento. El procesamiento de secuencias de tokens largas requiere recursos computacionales sustanciales y corre el riesgo de producir incrustaciones de atención ruidosas. Estas restricciones obstaculizan la capacidad de los LLM para incorporar información específica del dominio, privada o actualizada de manera efectiva. Los investigadores han probado varios enfoques, incluidos los métodos basados ​​en la recuperación, pero sigue habiendo una brecha de rendimiento significativa entre las tareas de contexto corto y largo, incluso cuando se emplean las arquitecturas de contexto largo existentes.

Los investigadores han explorado varios enfoques para ampliar las ventanas de contexto de los LLM, centrándose en mejorar la atención softmax, reducir los costos computacionales y mejorar las codificaciones posicionales. Los métodos basados ​​en la recuperación, en particular la recuperación k-NN basada en grupos, han demostrado ser prometedores al recuperar grandes grupos de tokens y funcionar como atención jerárquica.

Al mismo tiempo, la investigación sobre modelos neuronales de la memoria episódica ha proporcionado información sobre los procesos cerebrales de almacenamiento de experiencias. Estos modelos destacan la importancia de la segmentación de eventos basada en la sorpresa y la dinámica temporal en la formación y recuperación de la memoria. Los estudios revelan que los modelos neuronales de memoria basados ​​en transformadores presentan efectos de contigüidad y asimetría temporal similares a la recuperación de la memoria humana, lo que sugiere un potencial para funcionar como modelos de recuperación de la memoria episódica con información contextual adecuada.

Investigadores del Laboratorio del Arca de Noé de Huawei y del University College de Londres proponen una Maestría en Derecho y Maestría en Derechouna arquitectura única que integra la memoria episódica en los LLM basados ​​en Transformer, lo que les permite manejar contextos significativamente más largos. Divide el contexto en tokens iniciales, tokens desalojados (administrados por un modelo de memoria episódica) y contexto local. La arquitectura forma recuerdos segmentando secuencias de tokens en eventos basados ​​en niveles de sorpresa durante la inferencia, refinando los límites utilizando métricas de teoría de grafos para optimizar la cohesión y la separación. La recuperación de la memoria emplea un mecanismo de dos etapas: la búsqueda k-NN recupera eventos similares, mientras que un búfer de contigüidad mantiene el contexto temporal. Este enfoque imita la memoria episódica humana, mejorando la capacidad del modelo para procesar contextos extendidos y realizar tareas complejas de razonamiento temporal de manera eficiente.

EM-LLM extiende los LLM entrenados previamente para manejar longitudes de contexto mayores. Divide el contexto en tokens iniciales, tokens desalojados y contexto local. El contexto local utiliza atención softmax completa, que representa la información más reciente y relevante. Los tokens desalojados, administrados por un modelo de memoria similar a la memoria episódica de corto plazo, comprenden la mayoría de los tokens pasados. Los tokens iniciales actúan como receptores de atención. Para los tokens recuperados fuera del contexto local, EM-LLM asigna incrustaciones de posición fija. Esta arquitectura permite a EM-LLM procesar información más allá de su ventana de contexto entrenada previamente mientras mantiene las características de rendimiento.

EM-LLM demostró un mejor desempeño en tareas de contexto largo en comparación con el modelo base InfLLM. En el conjunto de datos LongBench, EM-LLM superó a InfLLM en todas las tareas excepto una, logrando un aumento general de 1,8 puntos porcentuales (mejora relativa del 4,3%). Además, EM-LLM mostró mejoras significativas en la tarea PassageRetrieval, con una mejora de hasta el 33%, y una mejora del 9,38% en la tarea HotpotQA. Estos resultados resaltan la capacidad mejorada de EM-LLM para recordar información detallada de contextos amplios y realizar razonamientos complejos sobre múltiples documentos de respaldo. El estudio también encontró que los métodos de segmentación basados ​​en sorpresas se alineaban estrechamente con la percepción de eventos humanos, superando los enfoques de segmentación de eventos fijos o aleatorios.

EM-LLM representa un avance significativo en los modelos de lenguaje con capacidades extendidas de procesamiento de contexto. Al integrar la memoria episódica humana y la cognición de eventos en los LLM basados ​​en transformadores, procesa de manera efectiva la información de contextos muy extendidos sin entrenamiento previo. La combinación de segmentación de eventos basada en sorpresas, refinamiento de límites de teoría de grafos y recuperación de memoria en dos etapas permite un desempeño superior en tareas de contexto largo. EM-LLM ofrece un camino hacia ventanas de contexto virtualmente infinitas, revolucionando potencialmente las interacciones LLM con intercambios continuos y personalizados. Este marco flexible sirve como una alternativa a las técnicas RAG tradicionales y proporciona un modelo computacional escalable para probar hipótesis de memoria humana. Al unir la ciencia cognitiva y el aprendizaje automático, EM-LLM no solo mejora el desempeño de los LLM, sino que también inspira más investigación en la intersección de los LLM y los mecanismos de memoria humana.


Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.