Los modelos de lenguaje grande (LLM) se utilizan cada vez más para impulsar aplicaciones de procesamiento de lenguaje natural, incluida la finalización de código, la respuesta a preguntas, el resumen de documentos y los sistemas de diálogo. Los LLM previamente capacitados deben ser capaces de realizar la creación de secuencias extendidas de manera precisa y rápida para alcanzar su máximo potencial. Un asistente ChatBot ideal, por ejemplo, puede editar de manera confiable el contenido de chats recientes de un día. Generalizar a longitudes de secuencia mayores a las que han sido entrenados previamente, como 4K para Llama-2, es muy difícil para LLM. Debido al período de atención durante la capacitación previa, los LLM están restringidos.
Aunque se han realizado importantes intentos para aumentar el tamaño de esta ventana y aumentar la efectividad del entrenamiento y la inferencia para entradas largas, aún es necesario revisar la longitud de secuencia permitida, lo que impide implementaciones permanentes. Investigadores del MIT, Meta AI y la Universidad Carnegie Mellon discuten inicialmente la idea de aplicaciones de transmisión de LLM en este estudio y plantean la siguiente pregunta: Surgen dos problemas principales cuando se utilizan LLM para flujos de entrada infinitos:
1. Los LLM basados en transformadores almacenan en caché los estados de clave y valor (KV) de todos los tokens anteriores durante la etapa de decodificación, como se muestra en la Figura 1(a), lo que puede resultar en un uso excesivo de la memoria y un aumento en el retraso de decodificación.
2. El rendimiento de los modelos existentes se ve afectado cuando la duración de la secuencia excede el tamaño de la ventana de atención determinado durante el entrenamiento previo.
Figura 1 compara StreamingLLM con técnicas anteriores. El modelo de lenguaje, que ha sido previamente entrenado en textos de longitud L, predice el token T-ésimo (T >> L). (a) La atención densa tiene una capacidad de caché creciente y una complejidad temporal O(T^2). Cuando la longitud del texto es mayor que la longitud del texto previo al entrenamiento, su rendimiento se ve afectado. (b) Window Attention almacena el KV de los tokens L más nuevos en su caché. Aunque el rendimiento es bueno para la inferencia, se deteriora rápidamente cuando se eliminan las claves y los valores de los tokens iniciales. Para cada token nuevo, (c) La ventana deslizante con recálculo reconstruye los estados de KV utilizando los L tokens más recientes. Aunque destaca en el manejo de textos extensos, debido a su complejidad O(TL^2) y atención cuadrática en el recálculo del contexto, es increíblemente lento. (d) Para un cálculo de atención constante, StreamingLLM conserva el receptor de atención (algunos tokens iniciales), junto con los tokens más recientes. Funciona de forma eficaz y coherente con textos largos. El modelo Llama-2-13B se utiliza para calcular las perplejidades del primer libro (65.000 tokens) en el conjunto de prueba PG-19.
La atención de ventana es una estrategia obvia que mantiene una ventana deslizante de tamaño fijo en los estados KV de los tokens más recientes (Figura 1b). Incluso simplemente expulsar el KV del primer token hace que el modelo colapse después de que la longitud de la secuencia exceda la capacidad de la caché, incluso si garantiza un uso consistente de la memoria y un rendimiento de decodificación después de que la caché se llene por primera vez. Una táctica adicional es una ventana deslizante con recálculo (Figura 1c), que reconstruye los estados KV de tokens recientes para cada token creado. El cálculo de la atención cuadrática dentro de su ventana hace que esta técnica sea mucho más lenta, incluso si funciona bien, lo que la hace inadecuada para aplicaciones de streaming del mundo real.
Descubren fenómenos intrigantes de los LLM autorregresivos para explicar la falla de la atención de la ventana: se asigna una puntuación de atención sorprendentemente alta a los tokens iniciales, independientemente de su relevancia para el trabajo de modelado del lenguaje. Estos tokens se denominan “sumideros de atención”. Reciben puntuaciones de atención significativas y tienen poco valor semántico. Se cita como causa la operación Softmax, que exige que las puntuaciones de atención sumen uno para todos los tokens contextuales. Como resultado, el modelo debe asignar estos valores de atención adicionales para que sumen uno, incluso cuando la consulta actual no tiene una buena coincidencia en muchos tokens anteriores.
Los tokens iniciales se utilizan como receptores de atención por una sencilla razón: son visibles para prácticamente todos los tokens posteriores debido a la naturaleza del modelado del lenguaje autorregresivo, lo que los hace más fáciles de entrenar. Sugieren StreamingLLM, una arquitectura sencilla y eficaz que permite a los LLM preparados con una ventana de atención finita trabajar en texto de duración indefinida sin ajustes, a la luz de los descubrimientos antes mencionados. Debido a que los drenajes de atención tienen valores de atención altos, StreamingLLM utiliza esta propiedad para mantener la distribución de la puntuación de atención razonablemente regular. StreamingLLM mantiene los KV de la ventana deslizante y los tokens de sumidero de atención (sólo se necesitan cuatro tokens iniciales) para anclar el cálculo de la atención y estabilizar el rendimiento del modelo.
Modelos como Llama-2-B, MPT-B, Falcon-B y PythiaB pueden representar con precisión 4 millones de tokens con la ayuda de StreamingLLM, y tal vez mucho más. StreamingLLM logra hasta 22,2 aceleraciones en comparación con la única ventana deslizante práctica de referencia con recálculo, lo que permite aprovechar el uso de streaming de los LLM. Finalmente, muestran que los modelos de lenguaje pueden entrenarse previamente para requerir solo un único token de sumidero de atención para la implementación de streaming, lo que confirma su hipótesis del sumidero de atención. Proponen que se pueda implementar un receptor de atención seleccionado como un token de aprendizaje adicional al comienzo de cada muestra de capacitación. La introducción de este token receptor único mantiene el rendimiento del modelo en instancias de transmisión mediante el entrenamiento previo de modelos de lenguaje con 160 millones de parámetros desde cero. Esto contrasta con los modelos básicos, que exigen reintroducir varios tokens iniciales a medida que la atención disminuye para mantener el mismo grado de rendimiento.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.