Screenshot 2024 05 26 At 10.27.33 Pm.png

El rápido crecimiento de los grandes modelos de lenguaje (LLM) ha catalizado el desarrollo de numerosas aplicaciones de PNL, como chatbots, asistentes de escritura y ayudas de programación. Sin embargo, estas aplicaciones a menudo requieren una longitud de entrada ilimitada y capacidades de memoria sólidas, de las que carecen los LLM actuales. Ampliar la longitud del texto previo al entrenamiento no es práctico, lo que requiere investigación para permitir que los LLM manejen longitudes de entrada infinitas y al mismo tiempo preserven la memoria. Estudios recientes se centran en mejorar la duración del contexto de entrada de los LLM, principalmente mediante la optimización de los mecanismos de atención. Técnicas como la atención de ventana deslizante y StreamLLM tienen como objetivo extender la longitud de la entrada, pero sufren problemas de pérdida de atención y pérdida de memoria, lo que lleva a explorar el filtrado de tokens menos importantes para mantener períodos de memoria más largos.

Numerosos estudios se han centrado en ampliar la duración del contexto de entrada de los LLM refinando el mecanismo de atención. Algunos métodos, como la atención de ventana deslizante, que limita cada token para atender solo a los tokens recientes, garantizan una velocidad de decodificación estable. Se propusieron otros métodos, como el Sparse Transformer fijo y la autoatención LogSparse, para preservar la información del contexto local y mejorar la atención global. StreamLLM se introdujo para lograr una verdadera longitud de entrada infinita manteniendo el enfoque tanto en los tokens iniciales como en los recientes. Sin embargo, los enfoques existentes enfrentan desafíos como la preservación de tokens y problemas de olvido.

Investigadores de la Universidad Jiao Tong de Shanghai y la Universidad de Wuhan presentes Transmisión de LLM retentivo infinito (SeñorLLM), un modelo que permite a los LLM mantener la memoria extendida en diálogos de longitud infinita sin necesidad de ajustes. SirLLM utiliza la métrica de entropía de tokens y el mecanismo de deterioro de la memoria para filtrar frases clave, mejorando la memoria adaptable y duradera de los LLM. Se diseñaron tres tareas y conjuntos de datos para evaluar de manera integral la efectividad de SirLLM: DailyDialog, compras de comestibles y piedra, papel o tijera.

Los valores de entropía para cada token se utilizan para mejorar la capacidad de memoria del modelo al preservar selectivamente los estados clave-valor de solo los tokens clave, lo que llevó a la propuesta de SirLLM. La descripción general del marco de SirLLM implica mantener una caché de valores clave (KV) y una caché de entropía de tokens. Cuando la cantidad de tokens almacenados en la caché de KV excede la longitud L previa al entrenamiento, SirLLM calcula la entropía de cada token y selecciona los tokens con mayor entropía, conservando así espacio en la caché de KV. Esto se logra seleccionando los k tokens principales con la entropía de token más alta. Una entropía de token más alta implica una menor probabilidad de generación de palabras, lo que indica tokens clave con más información. SirLLM también ajusta las posiciones de los tokens dentro del caché para distancias relativas, enfocándose en las posiciones del caché en lugar de

posiciones del texto original. Sin embargo, preservar tokens basados ​​únicamente en la entropía puede generar una memoria rígida dentro del modelo, lo que dificulta la adaptabilidad. Para superar esto, se propone una relación de caída ηdecay menor que 1, lo que permite que el modelo olvide información clave más antigua después de cada ronda de diálogo, mejorando así la flexibilidad y la experiencia del usuario.

El análisis del conjunto de datos de Piedra, Papel y Tijera demuestra el rendimiento superior constante de SirLLM en comparación con el StreamLLM de referencia entre jugadores con diversas preferencias de lanzamiento. SirLLM muestra una mejora constante en las tasas de victorias contra jugadores de diversas preferencias, manteniendo este rendimiento elevado de manera consistente en todos los modelos evaluados. El mecanismo de caída integrado en SirLLM contribuye significativamente a mantener un rendimiento equilibrado durante múltiples rondas, como lo demuestran las tasas de victorias uniformemente elevadas. Esta característica es particularmente ventajosa en escenarios que involucran interacciones prolongadas como juegos extendidos de Piedra, Papel y Tijera, destacando la capacidad de SirLLM para adaptarse y recordar movimientos anteriores, esencial para el éxito.

Al presentar SirLLM, este estudio aborda los desafíos críticos de administrar longitudes de entrada infinitas y capacidad de memoria. SirLLM logra una retención prolongada del diálogo sin necesidad de ajustar el modelo al reforzar selectivamente el enfoque en la información fundamental. En tres tareas personalizadas: DailyDialog, Grocery Shopping y Piedra, papel y tijera, SirLLM demuestra consistentemente una mejora estable con respecto a los modelos existentes, independientemente de la complejidad o duración del diálogo. Los resultados experimentales validan la solidez y versatilidad de SirLLM, posicionándolo como un activo valioso para futuras exploraciones y aplicaciones en el procesamiento del lenguaje natural.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.