Los modelos generativos de lenguaje grande (LLM) son bien conocidos por su notable desempeño en una variedad de tareas, incluido el procesamiento complejo del lenguaje natural (NLP), escritura creativa, respuesta a preguntas y generación de código. En los últimos tiempos, los LLM se han ejecutado en sistemas locales accesibles, incluidas PC domésticas con GPU de consumo para mejorar la privacidad de los datos, modelos personalizables y menores costos de inferencia. Las instalaciones locales priorizan la baja latencia sobre el alto rendimiento; sin embargo, los LLM son difíciles de implementar en GPU de consumo debido a los altos requisitos de memoria.
Estos modelos, que frecuentemente son transformadores autorregresivos, producen texto token por token y, para cada inferencia, necesitan acceso al modelo completo con cientos de miles de millones de parámetros. Esta limitación se nota en las implementaciones locales porque hay menos espacio para el procesamiento paralelo cuando se manejan solicitudes individuales. Dos estrategias actuales para abordar estos problemas de memoria son la descarga y la compresión de modelos.
En un estudio reciente, un equipo de investigadores presentó PowerInfer, un sistema de inferencia LLM eficaz diseñado para implementaciones locales utilizando una única GPU de consumo. PowerInfer reduce el requisito de costosas transferencias de datos PCIe (Peripheral Component Interconnect Express) al preseleccionar y precargar neuronas activadas en caliente en la GPU sin conexión y utilizar predictores en línea para identificar neuronas activas durante el tiempo de ejecución.
La idea central detrás del diseño de PowerInfer es hacer uso de la alta localidad que viene con la inferencia LLM, que se caracteriza por una distribución de ley de potencia en la activación neuronal. Esta distribución muestra que la mayoría de las neuronas frías cambian según ciertas entradas, mientras que una pequeña fracción de las neuronas calientes se activan consistentemente a través de diferentes entradas.
El equipo ha compartido que PowerInfer es un motor de inferencia híbrido GPU-CPU que utiliza este conocimiento. Precarga neuronas activadas en frío en la CPU para computación y neuronas activadas en caliente en la GPU para acceso instantáneo. Al distribuir estratégicamente la carga de trabajo, los requisitos de memoria de la GPU se reducen considerablemente y hay menos transferencias de datos entre la CPU y la GPU.
PowerInfer integra operadores dispersos conscientes de las neuronas y predictores adaptativos para optimizar aún más el rendimiento. Los operadores dispersos conscientes de las neuronas interactúan directamente con neuronas individuales, eliminando la necesidad de operar en matrices enteras, mientras que los predictores adaptativos ayudan a identificar y pronosticar neuronas activas durante el tiempo de ejecución. Estas optimizaciones mejoran la escasez computacional y la activación neuronal efectiva.
El equipo evaluó el rendimiento de PowerInfer, que mostró una tasa promedio de creación de tokens de 13,20 por segundo y un rendimiento máximo de 29,08 tokens por segundo. Estos resultados se lograron utilizando una única GPU NVIDIA RTX 4090 y una variedad de LLM, incluido el modelo OPT-175B. Este rendimiento solo está un 18% por debajo de la GPU A100 de calidad de servidor, la mejor de su clase, lo que demuestra la eficacia de PowerInfer en el hardware convencional.
Tras la evaluación, PowerInfer también demostró que tiene la capacidad de ejecutarse hasta 11,69 veces más rápido que el sistema llama.cpp actual manteniendo la fidelidad del modelo. En conclusión, PowerInfer ofrece un aumento significativo en la velocidad de inferencia LLM, lo que indica su potencial como solución para la ejecución de modelos de lenguaje avanzado en PC de escritorio con capacidades de GPU restringidas.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.