Aunque los modelos de lenguajes grandes (LLM) han demostrado capacidades impresionantes en lo que respecta al procesamiento del lenguaje, son computacionalmente costosos y requieren una infraestructura de hardware sofisticada. El aumento de la popularidad de estos modelos ha requerido la implementación de GPU a un ritmo sin precedentes, lo que plantea importantes desafíos para los proveedores de la nube. Dado que el poder para alimentar esta demanda de GPU es limitado, no es extraño que las consultas de los usuarios sean rechazadas y, por lo tanto, los investigadores están trabajando para mejorar la infraestructura existente para hacerla más eficiente.
Hay dos fases asociado con un proceso de inferencia LLM: cálculo rápido (el usuario ingresa un mensaje) y generación de token (LLM genera la salida). Durante la primera fase, los tokens de entrada son procesados en paralelo por el LLM, que requiere mucha computación. En la segunda fase, los tokens de salida se generan secuencialmente, lo cual es una tarea que consume mucha memoria. Un diseño de este tipo conduce a una baja utilización general del hardware y, finalmente, a costes mucho más elevados para el usuario.
Para abordar el problema antes mencionado, los investigadores de Microsoft han introducido dividido, que es una técnica que separa las fases de cálculo rápido y generación de tokens en máquinas separadas, lo que lleva a una utilización óptima del hardware disponible. Junto con los dos grupos de máquinas para las dos fases de inferencia, Splitwise también tiene un tercero, que tiene un tamaño dinámico, es decir, se expande y contrae según la carga de trabajo. Además, el contexto de estado, es decir, la caché KV, se transfiere desde el mensaje a las máquinas de tokens a través de InfiniBand sin ningún retraso perceptible.
Splitwise también aprovecha la programación jerárquica de dos niveles para enrutar las solicitudes entrantes, mantener la cola pendiente y gestionar el procesamiento por lotes de solicitudes en cada máquina. El diseño de Splitwise es tal que se centra en una mejor latencia a una tasa de solicitud más baja y una menor reducción del rendimiento a una tasa de solicitud más alta.
Para la evaluación, los investigadores utilizaron Spltwise para diseñar clústeres con diferentes especificaciones de GPU. También optimizaron la potencia, el costo y el rendimiento de cada consulta. Consideraron dos usos de Splitwise, es decir, código y conversación utilizando los modelos BLOOM-176B y LLaMa-2-70B. Los resultados muestran que Splitwise maximiza con éxito el rendimiento, minimiza los costos y reduce la energía. Además, el diseño del clúster pudo maximizar el rendimiento al mismo costo que un clúster básico A100.
Además, en comparación con el clúster básico, Splitwise entregó un rendimiento mucho mayor mientras operaba dentro de las mismas limitaciones de energía. Los resultados también muestran que Splitwise puede ajustarse según los requisitos de la carga de trabajo utilizando el programador inteligente. Además, también es resistente a los cambios en el modelo, la carga y la distribución de tokens de LLM.
En conclusión, Splitwise es una técnica eficaz para la utilización óptima del hardware para acelerar el proceso de inferencia LLM al permitir que máquinas separadas ejecuten las dos fases del mismo. Marca un salto significativo hacia la implementación de LLM eficiente y de alto rendimiento y proporciona una buena base para que otros investigadores hagan que la inferencia de LLM sea más eficiente y sostenible.
Revisar la Papel y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.