DéjàVu: un sistema de aprendizaje automático para un sistema de servicio LLM eficiente y tolerante a fallas

El aumento en la implementación de modelos de lenguaje grande (LLM) como GPT-3, OPT y BLOOM en varias interfaces digitales, incluidos chatbots y herramientas de resumen de texto, ha puesto en primer plano la necesidad crítica de optimizar su infraestructura de servicio. Los LLM son conocidos por sus enormes tamaños y los importantes recursos computacionales que necesitan, lo que presenta un trío de desafíos formidables en su funcionamiento: utilizar eficientemente aceleradores de hardware, administrar la huella de memoria y garantizar un tiempo de inactividad mínimo durante las fallas.

Investigadores de MSR Project Fiddle Intern, ETH Zurich, Carnegie Mellon University y Microsoft Research han desarrollado meticulosamente un novedoso sistema DéjàVu para sortear estos obstáculos con elegancia. En el corazón de DéjàVu se encuentra una biblioteca de transmisión de caché de valores clave (KV) versátil, denominada DéjàVuLib, que está ingeniosamente diseñada para agilizar el proceso de entrega de LLM. Este sistema es innovador por su enfoque para manejar la latencia bimodal inherente al procesamiento rápido y la generación de tokens, una disparidad que anteriormente conducía a una subutilización significativa de la GPU.

DéjàVu introduce un cambio de paradigma a través de la desagregación de tokens rápidos, asignando distintos recursos computacionales para cada fase. Esta separación se implementa tácticamente para igualar los diferentes requisitos de memoria y computación del procesamiento rápido y la generación de tokens. Al alinear las tareas computacionales con el hardware más adecuado, DéjàVu garantiza que las GPU se mantengan activas, cerrando de manera eficiente la brecha entre el procesamiento rápido computacionalmente intenso y la fase relativamente uniforme de generación de tokens.

Un componente fundamental de la estrategia de DéjàVu es el intercambio de microlotes, una técnica innovadora diseñada para maximizar la eficiencia de la memoria de la GPU. Este proceso implica el intercambio dinámico de microlotes entre la memoria de la GPU y la CPU, lo que permite tamaños de lotes más grandes sin la necesidad de aumentos proporcionales en la memoria de la GPU. Esto no solo mejora el rendimiento sino que también permite servir modelos más grandes bajo restricciones de hardware fijas, un avance significativo en la tecnología de servicio LLM.

DéjàVu establece un nuevo estándar en resiliencia del sistema a través de su función de replicación de estado, que está diseñada para fortalecer el proceso de servicio contra interrupciones. Al replicar el estado de la caché KV en diferentes almacenes de memoria, DéjàVu garantiza que, en caso de falla, el sistema pueda reanudar rápidamente las operaciones desde el último estado bueno conocido, minimizando el impacto en el rendimiento general del servicio. Este enfoque reduce drásticamente la redundancia y la latencia típicamente asociadas con los procesos de recuperación en los sistemas de servicio LLM tradicionales.

La eficacia de DéjàVu demostró su capacidad para mejorar el rendimiento hasta el doble que el de los sistemas existentes, un testimonio de sus metodologías innovadoras. Estas mejoras no son sólo triunfos numéricos, sino que representan mejoras tangibles en la experiencia del usuario al reducir los tiempos de espera y mejorar la confianza en los servicios ofrecidos por los LLM.

Al crear DéjàVu, los investigadores abordaron las ineficiencias existentes en el servicio LLM y establecieron un plan para futuras innovaciones en este espacio. La arquitectura modular del sistema, representada por DéjàVuLib, garantiza que se pueda adaptar y ampliar para satisfacer las demandas cambiantes de las aplicaciones LLM. Esta adaptabilidad, combinada con las mejoras tangibles en eficiencia y confiabilidad, marca un hito importante en la realización del potencial de los LLM en las aplicaciones cotidianas.

En conclusión, la investigación se puede resumir en los siguientes puntos:

  • DéjàVu revoluciona el servicio LLM con un enfoque en la eficiencia y la tolerancia a fallas, superando significativamente a los sistemas actuales.
  • La separación del procesamiento rápido y la generación de tokens, junto con el intercambio de microlotes, optimiza la utilización de la GPU y la gestión de la memoria.
  • La replicación de estado garantiza solidez contra fallas, lo que permite una recuperación rápida y una interrupción mínima del servicio.
  • Las mejoras de rendimiento demostradas de hasta 2 veces resaltan el potencial de DéjàVu para mejorar las experiencias de los usuarios en los servicios basados ​​en LLM.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.