Lightminker: compresión dinámica de pensamientos intermedios para un razonamiento LLM más eficiente

Métodos como la impulso de la cadena de pensamiento (COT) han mejorado el razonamiento al romper problemas complejos en subpasos secuenciales. Los avances más recientes, como los modos de pensamiento similar a O1, introducen capacidades, incluyendo prueba y error, retroceso, corrección e iteración, para mejorar el rendimiento del modelo en problemas difíciles. Sin embargo, estas mejoras vienen con costos computacionales sustanciales. El aumento de la generación de tokens crea una sobrecarga de memoria significativa debido a las limitaciones de la arquitectura del transformador, donde la complejidad del mecanismo de atención crece cuadráticamente con la longitud de contexto, mientras que el almacenamiento de caché de KV aumenta linealmente. Por ejemplo, cuando la longitud de contexto de Qwen32b alcanza 10,000 tokens, el caché de KV consume memoria comparable a todo el modelo.

Los enfoques actuales para acelerar la inferencia LLM se dividen en tres categorías principales: modelo de cuantificación, generar menos tokens y reducir el caché de KV. El modelo de cuantificación involucra técnicas de cuantización de caché de parámetros y kv. Dentro de la categoría de caché KV reductora, la selección basada en la poda en un espacio discreto y la compresión basada en la fusión en espacio continuo emergen como estrategias clave. Las estrategias basadas en la poda implementan políticas de desalojo específicas para retener solo tokens importantes durante la inferencia. Las estrategias basadas en la fusión introducen tokens de anclaje que comprimen información históricamente importante. La diferencia entre estos dos métodos es que los métodos basados ​​en la poda no contienen capacitación, pero requieren la aplicación de políticas de desalojo para cada token generado, y los métodos basados ​​en la fusión requieren capacitación en modelos.

Investigadores de la Universidad de Zhejiang, Ant Group, y la Universidad de Zhejiang – Gráfico de Laboratorio de Conocimiento Conjunto de Ant Group de hormigas han propuesto que el Hilinker de Lights para permitir que los LLM compriman los pensamientos intermedios durante el razonamiento dinámicamente. Inspirado en la cognición humana, Light Thinker comprime los pasos de razonamiento detallado en representaciones compactas y descarta cadenas de razonamiento originales, reduciendo significativamente el número de tokens almacenados en la ventana de contexto. Los investigadores también introducen la métrica de dependencia (DEP) para cuantificar la efectividad de la compresión midiendo la dependencia de los tokens históricos durante la generación. Además, la luz de luz reduce el uso de la memoria máxima y el tiempo de inferencia al tiempo que mantiene una precisión competitiva, ofreciendo una dirección prometedora para mejorar la eficiencia de LLM en tareas de razonamiento complejas.

El enfoque LightTinker se evalúa utilizando los modelos QWEN2.5-7B y LLAMA3.1-8B. Los investigadores realizaron un ajuste de instrucciones de parámetros completos utilizando el conjunto de datos a medida-Stratos-17k, con el modelo resultante designado como vainilla. Se implementaron cinco líneas de base de comparación: dos métodos de aceleración sin capacitación (H2O y SEPLM), un método basado en la capacitación (ANLLM) y la solicitud de COT aplicada tanto a los modelos de instrucción como R1-Distill. La evaluación se produjo en cuatro conjuntos de datos (GSM8K, MMLU, GPQA y BBH), midiendo la efectividad y eficiencia (a través del tiempo de inferencia, el recuento de tokens máximos y las métricas de dependencia). La implementación presenta dos enfoques de compresión: compresión a nivel de token (convirtiendo cada 6 tokens en 2) y compresión a nivel de pensamiento (usando “\ n \ n” como delimitador para segmentar pensamientos).

Los resultados de la evaluación en las cuatro métricas para ambos modelos en todos los conjuntos de datos revelan varios hallazgos significativos. Distill-R1 tiene un rendimiento constante en comparación con COT en todos los conjuntos de datos, con la brecha de rendimiento atribuida a los problemas de repetición causados ​​por la decodificación codiciosa. H2O conserva efectivamente el rendimiento del modelo al tiempo que reduce el uso de la memoria, validando su política de desalojo codiciosa para la generación de texto largo. Sin embargo, H2O aumenta sustancialmente el tiempo de inferencia (51% para QWEN y 72% para LLAMA) debido a su política de desalojo en términos en términos generales de creación de gastos generales para cada token generado. Además, Lightthinker coincide con el rendimiento de H2O con tasas de compresión similares al tiempo que reduce el tiempo de inferencia con una reducción del 52% para QWEN y 41% para LLAMA.

En este artículo, los investigadores introdujeron LightTinker, un enfoque novedoso para mejorar la eficiencia de LLM en tareas de razonamiento complejos a través de la compresión dinámica de pensamientos intermedios durante la generación. Al capacitar modelos para aprender tiempo y métodos óptimos para comprimir los pasos de razonamiento detallado en representaciones compactas, LightTinker reduce significativamente los gastos generales de la memoria y los costos computacionales mientras se mantiene la precisión competitiva. Sin embargo, quedan varias limitaciones: la compatibilidad con los métodos de ajuste fino de los parámetros como Lora o Qlora está inexplorado, los beneficios potenciales de los conjuntos de datos de entrenamiento más grandes son desconocidos y la degradación del rendimiento es notable en los modelos de series de LLAMA cuando se entrenan en conjuntos de datos pequeños con predicción a continuación.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.