Los modelos de lenguajes grandes (LLM) enfrentan un obstáculo en el manejo de contextos largos debido a la longitud limitada de sus ventanas. Aunque la duración de la ventana de contexto se puede ampliar mediante ajustes, esto genera importantes costos de tiempo de inferencia y capacitación, lo que afecta negativamente las capacidades principales del LLM.
Los LLM actuales, como Llama-1 y Llama-2, tienen longitudes de contexto fijas, lo que dificulta las aplicaciones del mundo real. Aunque el ajuste puede ampliar la duración del contexto, generará costos considerables debido a la complejidad informática cuadrática de la autoatención, lo que afectará tanto al entrenamiento como a la inferencia. La formación continua en secuencias largas puede comprometer las capacidades generales de los LLM en contextos más cortos. Existe la necesidad de mecanismos rentables que permitan la extensión del contexto sin comprometer las capacidades existentes en los LLM previamente capacitados.
Investigadores de la Academia de Inteligencia Artificial de Beijing, la Escuela de Inteligencia Artificial Gaoling y la Universidad Renmin de China han propuesto Baliza de activación. Aprovecha la idea de que las activaciones sin procesar de LLM contienen información redundante, condensándolas con una pérdida mínima. Esta forma condensada permite al LLM captar un contexto amplio en un período breve. Al igual que la atención escasa y la compresión del contexto, Activation Beacon amplía eficazmente la calidad del contexto, admite diversas longitudes y garantiza la compatibilidad con los LLM existentes. Sus diseños técnicos mejoran la eficiencia del entrenamiento y la inferencia, lo que la convierte en una solución prometedora.
Usando tokens especiales llamados balizas, Baliza de activación logra una relación de condensación (α) de L/k (k ≪ L), optimizando la ingesta de información. Las balizas emplean tres esquemas de atención, siendo la expansión gradual la más efectiva. La regresión automática con baliza combina activaciones condensadas y sin procesar en ventanas deslizantes, prediciendo el siguiente token de manera eficiente. Beacon, un módulo LLM plug-and-play, se entrena mediante regresión automática, lo que garantiza un impacto mínimo en el procesamiento de contexto corto al tiempo que introduce información contextual larga. Las proporciones de condensación de muestreo gradual mejoran la eficiencia del entrenamiento y generalizan las balizas para diversas longitudes de contexto.
Activation Beacon sobresale en el modelado de lenguaje de contexto largo, superando a Llama-2-7B y superando a los métodos sin ajustes. Mejora gradualmente el modelado del lenguaje a medida que la longitud del contexto se extiende de 4K a 32K, utilizando de manera efectiva información ampliada. En comparación con los métodos optimizados de atención total, Activation Beacon logra un rendimiento comparable o superior con una eficiencia significativamente mayor. El método mantiene la generación de calidad incluso a 100K y se extiende hasta 400K, lo que supone un notable aumento de 100 veces con respecto a Llama-2-7B. En las tareas de LongBench, Baliza de activación coincide o supera las líneas de base ajustadas, mostrando su efectividad en diversas aplicaciones del mundo real sin comprometer las capacidades originales de LLM.
Como módulo plug-and-play, presenta información contextual extensa al tiempo que preserva las capacidades de contexto corto de LLM. El empleo de ventanas deslizantes para el procesamiento de streaming mejora la eficiencia tanto en la inferencia como en el entrenamiento. Diversas relaciones de condensación, muestreadas durante la capacitación, permiten un soporte efectivo para una amplia gama de longitudes de contexto. Los resultados experimentales lo confirman Baliza de activación es un método eficaz, eficiente y de bajo costo para ampliar la duración del contexto LLM.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.