El equipo Colossal-AI tiene código abierto Swiftlnfer, una implementación basada en TensorRT del algoritmo StreamingLLM. El algoritmo StreamingLLM aborda el desafío que enfrentan los modelos de lenguajes grandes (LLM) al manejar conversaciones de múltiples rondas. Se centra en las limitaciones que plantean la longitud de entrada y las limitaciones de memoria de la GPU. Los mecanismos de atención existentes para la generación de texto, como la atención densa, la atención de ventana y la atención de ventana deslizante con recálculo, luchan por mantener la calidad de la generación durante diálogos extendidos, especialmente con entradas de gran longitud.
StreamingLLM estabiliza la calidad de la generación de texto durante conversaciones de varias rondas mediante el empleo de un módulo de atención basado en una ventana deslizante sin necesidad de realizar más ajustes. Analiza el resultado de la operación softmax en el módulo de atención, identificando un fenómeno de sumidero de atención donde los tokens iniciales reciben atención innecesaria.
Uno de los inconvenientes de la implementación inicial de StreamingLLM en PyTorch nativo es que requiere optimización para cumplir con los requisitos de bajo costo, baja latencia y alto rendimiento para las aplicaciones de conversación de múltiples rondas LLM.
SwiftInfer de Colossal-AI aborda este desafío combinando las fortalezas de StreamingLLM con la optimización de inferencia de TensorRT, lo que resulta en una mejora del 46% en el rendimiento de inferencia para modelos de lenguaje grandes. En Swiftlnfer, los investigadores reinventaron el mecanismo de caché KV y el módulo de atención con cambio de posición. Evita la atención innecesaria a las fichas iniciales y se centra en el hundimiento de la atención; Los modelos garantizan una generación estable de textos de alta calidad durante la transmisión, evitando el colapso observado en otros métodos. Es importante tener en cuenta que StreamingLLM no aumenta directamente la longitud del contexto del modelo, pero garantiza un soporte de generación confiable para entradas de texto de diálogo más largas.
Swiftlnfer optimizó con éxito StreamingLLM al superar las limitaciones del algoritmo. La integración de la API de TensorRT-LLM permite la construcción del modelo de forma similar a PyTorch. Swiftlnfer admite entradas de texto de diálogo más largas que muestran aceleración tanto en implementaciones iniciales como optimizadas. El compromiso de la comunidad Colossal-AI con la contribución de código abierto fortalece aún más el impacto de la investigación en la mejora del desarrollo y la implementación de modelos de IA.
Revisar la Proyecto y Referencia. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.