Un marco de programación concurrente para el análisis cuantitativo de problemas de eficiencia al atender múltiples solicitudes de contexto largo en un régimen de memoria de alto ancho de banda (HBM) de GPU limitado

Los modelos de lenguaje de gran tamaño (LLM) han adquirido capacidades significativas, alcanzando un rendimiento de nivel GPT-4. Sin embargo, la implementación de estos modelos para aplicaciones que requieren un contexto extenso, como la codificación a nivel de repositorio y la comprensión de videos de una hora de duración, plantea desafíos sustanciales. Estas tareas exigen contextos de entrada que van desde 100K a 10M tokens, un salto significativo respecto del límite estándar de tokens de 4K. Los investigadores están lidiando con un objetivo ambicioso: ¿cómo se puede lograr que la implementación de transformadores de nivel de producción de contexto de 1M sea tan rentable como sus contrapartes de 4K? El principal obstáculo para brindar servicio a transformadores de contexto largo es el tamaño de la caché KV. Por ejemplo, un modelo de parámetros de 30+B con contexto de 100K requiere la asombrosa cantidad de 22,8 GB de caché KV, en comparación con solo 0,91 GB para el contexto de 4K, lo que resalta el aumento exponencial de los requisitos de memoria a medida que aumenta la longitud del contexto.

Para superar los desafíos de implementar transformadores de contexto largo, el investigador de la Universidad de Edimburgo ha desarrollado un marco de programación concurrente para el análisis cuantitativo de problemas de eficiencia al atender múltiples solicitudes de contexto largo bajo memoria GPU de alto ancho de banda (HBM) limitada. Este marco se centra en un modelo de nivel GPT-3.5 de 34B con un contexto de 50K en una GPU A100 NVLink como ejemplo representativo. El análisis revela cuatro desafíos de implementación clave derivados de la gran caché KV: tiempo de prellenado extendido y uso de memoria para entradas largas, capacidad de usuario concurrente restringida debido a la ocupación de HBM, mayor latencia de decodificación por el acceso frecuente a la caché KV y latencia significativa de cambio de contexto al intercambiar la caché KV entre HBM y memoria DDR. Este marco integral permite a los investigadores evaluar las soluciones existentes y explorar posibles combinaciones para desarrollar sistemas de extremo a extremo que puedan manejar de manera eficiente modelos de lenguaje de contexto largo.

El estudio se centra en la compresión de la caché KV en cuatro dimensiones: capa, cabeza, token y oculta. Los investigadores plantean la hipótesis de que algunas tareas pueden no requerir un cálculo de profundidad completa para la dimensión de capa, lo que permite omitir capas durante el llenado previo. Este enfoque podría reducir potencialmente la caché KV a solo una capa, logrando una relación de compresión de 1/60. En la dimensión de cabeza, los estudios sugieren que ciertas cabezas se especializan en capacidades de recuperación y contexto largo. Al retener solo estas cabezas cruciales y podar otras, se puede lograr una compresión significativa. Por ejemplo, algunas investigaciones indican que tan solo 20 de 1024 cabezas podrían ser suficientes para tareas de recuperación.

La compresión de la dimensión de token se basa en la hipótesis de que si la información de un token se puede inferir de su contexto, se puede comprimir eliminándola o fusionándola con tokens vecinos. Sin embargo, esta dimensión parece menos comprimible que las capas o las cabezas, y la mayoría de los trabajos muestran una relación de compresión inferior al 50%. La dimensión oculta, ya pequeña en 128, ha sido objeto de una exploración limitada más allá de las técnicas de cuantificación. Los investigadores sugieren que la aplicación de técnicas de reducción de dimensión como LoRA a la caché KV podría producir más mejoras. El marco también considera el costo relativo entre el prellenado y la decodificación, y señala que a medida que los modelos se hacen más grandes y las longitudes de contexto aumentan, el costo cambia de la decodificación al prellenado, lo que enfatiza la necesidad de optimizar ambos aspectos para una implementación eficiente en contextos largos.

La investigación presenta un análisis exhaustivo de los desafíos que presenta la implementación de transformadores de contexto largo, con el objetivo de lograr que el servicio de contexto de 1M sea tan rentable como el de 4K. Este objetivo democratizaría las aplicaciones de IA avanzadas, como la comprensión de video y los agentes generativos. El estudio presenta un marco de programación concurrente que divide el rendimiento de la interacción del usuario en cuatro métricas clave: concurrencia, prellenado, decodificación y cambio de contexto. Al examinar cómo varios factores impactan estas métricas y revisar los esfuerzos de optimización existentes, la investigación destaca oportunidades significativas para integrar los enfoques actuales para desarrollar sistemas robustos de servicio de contexto largo de extremo a extremo. Este trabajo sienta las bases para la optimización de pila completa de la inferencia de contexto largo.

Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios

Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Un marco de programación concurrente para el análisis cuantitativo de problemas de eficiencia al atender múltiples solicitudes de contexto largo en un régimen de memoria de alto ancho de banda (HBM) de GPU limitado

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

You missed

Cambio importante en la opinión sobre el Brexit: el 53% de los británicos apoyan el regreso a la UE « Euro Weekly News

¿Acaba de resolver la IA el misterio de una de las pinturas más enigmáticas de El Greco?

Jared Kushner bajo investigación por posibles violaciones de las leyes federales contra sobornos y agentes extranjeros

Clifford Kang de SERES destaca la movilidad inteligente habilitada por IA en la Cumbre Asia-Pacífico de la Conferencia Mundial de Internet de 2026