SwiftInfer de código abierto del equipo Colossal-AI: una implementación basada en TensorRT del algoritmo StreamingLLM

El equipo Colossal-AI tiene código abierto Swiftlnfer, una implementación basada en TensorRT del algoritmo StreamingLLM. El algoritmo StreamingLLM aborda el desafío que enfrentan los modelos de lenguajes grandes (LLM) al manejar conversaciones de múltiples rondas. Se centra en las limitaciones que plantean la longitud de entrada y las limitaciones de memoria de la GPU. Los mecanismos de atención existentes para la generación de texto, como la atención densa, la atención de ventana y la atención de ventana deslizante con recálculo, luchan por mantener la calidad de la generación durante diálogos extendidos, especialmente con entradas de gran longitud.

StreamingLLM estabiliza la calidad de la generación de texto durante conversaciones de varias rondas mediante el empleo de un módulo de atención basado en una ventana deslizante sin necesidad de realizar más ajustes. Analiza el resultado de la operación softmax en el módulo de atención, identificando un fenómeno de sumidero de atención donde los tokens iniciales reciben atención innecesaria.

Uno de los inconvenientes de la implementación inicial de StreamingLLM en PyTorch nativo es que requiere optimización para cumplir con los requisitos de bajo costo, baja latencia y alto rendimiento para las aplicaciones de conversación de múltiples rondas LLM.

SwiftInfer de Colossal-AI aborda este desafío combinando las fortalezas de StreamingLLM con la optimización de inferencia de TensorRT, lo que resulta en una mejora del 46% en el rendimiento de inferencia para modelos de lenguaje grandes. En Swiftlnfer, los investigadores reinventaron el mecanismo de caché KV y el módulo de atención con cambio de posición. Evita la atención innecesaria a las fichas iniciales y se centra en el hundimiento de la atención; Los modelos garantizan una generación estable de textos de alta calidad durante la transmisión, evitando el colapso observado en otros métodos. Es importante tener en cuenta que StreamingLLM no aumenta directamente la longitud del contexto del modelo, pero garantiza un soporte de generación confiable para entradas de texto de diálogo más largas.

Swiftlnfer optimizó con éxito StreamingLLM al superar las limitaciones del algoritmo. La integración de la API de TensorRT-LLM permite la construcción del modelo de forma similar a PyTorch. Swiftlnfer admite entradas de texto de diálogo más largas que muestran aceleración tanto en implementaciones iniciales como optimizadas. El compromiso de la comunidad Colossal-AI con la contribución de código abierto fortalece aún más el impacto de la investigación en la mejora del desarrollo y la implementación de modelos de IA.

Revisar la Proyecto y Referencia. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.

[Partnership and Promotion on Marktechpost] 🐝 Ahora puede asociarse con Marktechpost para promocionar su artículo de investigación, Github Repo e incluso agregar su comentario profesional en cualquier artículo de investigación de tendencia en marktechpost.com. Aumente la visibilidad de su investigación de IA y la de su empresa en la comunidad tecnológica… Obtenga más información

SwiftInfer de código abierto del equipo Colossal-AI: una implementación basada en TensorRT del algoritmo StreamingLLM

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Tutorial de Salesforce CodeGen: Generar, validar y reclasificar funciones de Python con pruebas unitarias y comprobaciones de seguridad

¿Qué tan poderoso es Claude Fable (Mythos) 5 para la codificación?

Perplexity lanza Brain, un sistema de memoria de mejora automática que crea un gráfico contextual del trabajo de un agente y aprende de la noche a la mañana

You missed

Un resumen de las últimas novedades del viernes

¿Habrá ‘Toy Story 6’? Sobre el futuro de la franquicia Pixar – Hollywood Life

Un ‘tratamiento’ pseudocientífico contra el cáncer implica gasear con lejía a personas desnudas en bolsas de plástico

Se revela el acuerdo de divorcio de Bunnie Xo y Jelly Roll