Conozca PowerInfer: un modelo de lenguaje grande (LLM) rápido en una única GPU de consumo que acelera 11 veces la inferencia del modelo de aprendizaje automático

Los modelos generativos de lenguaje grande (LLM) son bien conocidos por su notable desempeño en una variedad de tareas, incluido el procesamiento complejo del lenguaje natural (NLP), escritura creativa, respuesta a preguntas y generación de código. En los últimos tiempos, los LLM se han ejecutado en sistemas locales accesibles, incluidas PC domésticas con GPU de consumo para mejorar la privacidad de los datos, modelos personalizables y menores costos de inferencia. Las instalaciones locales priorizan la baja latencia sobre el alto rendimiento; sin embargo, los LLM son difíciles de implementar en GPU de consumo debido a los altos requisitos de memoria.

Estos modelos, que frecuentemente son transformadores autorregresivos, producen texto token por token y, para cada inferencia, necesitan acceso al modelo completo con cientos de miles de millones de parámetros. Esta limitación se nota en las implementaciones locales porque hay menos espacio para el procesamiento paralelo cuando se manejan solicitudes individuales. Dos estrategias actuales para abordar estos problemas de memoria son la descarga y la compresión de modelos.

En un estudio reciente, un equipo de investigadores presentó PowerInfer, un sistema de inferencia LLM eficaz diseñado para implementaciones locales utilizando una única GPU de consumo. PowerInfer reduce el requisito de costosas transferencias de datos PCIe (Peripheral Component Interconnect Express) al preseleccionar y precargar neuronas activadas en caliente en la GPU sin conexión y utilizar predictores en línea para identificar neuronas activas durante el tiempo de ejecución.

La idea central detrás del diseño de PowerInfer es hacer uso de la alta localidad que viene con la inferencia LLM, que se caracteriza por una distribución de ley de potencia en la activación neuronal. Esta distribución muestra que la mayoría de las neuronas frías cambian según ciertas entradas, mientras que una pequeña fracción de las neuronas calientes se activan consistentemente a través de diferentes entradas.

El equipo ha compartido que PowerInfer es un motor de inferencia híbrido GPU-CPU que utiliza este conocimiento. Precarga neuronas activadas en frío en la CPU para computación y neuronas activadas en caliente en la GPU para acceso instantáneo. Al distribuir estratégicamente la carga de trabajo, los requisitos de memoria de la GPU se reducen considerablemente y hay menos transferencias de datos entre la CPU y la GPU.

PowerInfer integra operadores dispersos conscientes de las neuronas y predictores adaptativos para optimizar aún más el rendimiento. Los operadores dispersos conscientes de las neuronas interactúan directamente con neuronas individuales, eliminando la necesidad de operar en matrices enteras, mientras que los predictores adaptativos ayudan a identificar y pronosticar neuronas activas durante el tiempo de ejecución. Estas optimizaciones mejoran la escasez computacional y la activación neuronal efectiva.

El equipo evaluó el rendimiento de PowerInfer, que mostró una tasa promedio de creación de tokens de 13,20 por segundo y un rendimiento máximo de 29,08 tokens por segundo. Estos resultados se lograron utilizando una única GPU NVIDIA RTX 4090 y una variedad de LLM, incluido el modelo OPT-175B. Este rendimiento solo está un 18% por debajo de la GPU A100 de calidad de servidor, la mejor de su clase, lo que demuestra la eficacia de PowerInfer en el hardware convencional.

Tras la evaluación, PowerInfer también demostró que tiene la capacidad de ejecutarse hasta 11,69 veces más rápido que el sistema llama.cpp actual manteniendo la fidelidad del modelo. En conclusión, PowerInfer ofrece un aumento significativo en la velocidad de inferencia LLM, lo que indica su potencial como solución para la ejecución de modelos de lenguaje avanzado en PC de escritorio con capacidades de GPU restringidas.

Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🚀 Aumente su presencia en LinkedIn con Taplio: creación de contenido impulsada por IA, programación sencilla, análisis en profundidad y networking con los mejores creadores. ¡Pruébelo gratis ahora!

Conozca PowerInfer: un modelo de lenguaje grande (LLM) rápido en una única GPU de consumo que acelera 11 veces la inferencia del modelo de aprendizaje automático

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Mistral AI lanza agentes remotos en Vibe y Mistral Medium 3.5 con una puntuación verificada por SWE-Bench del 77,6%

Cree un flujo de trabajo de IA con múltiples agentes para modelado de redes biológicas, interacciones de proteínas, metabolismo y simulación de señalización celular

Cómo un algoritmo de cuantificación de 2021 supera silenciosamente a su sucesor de 2026

You missed

Mistral AI lanza agentes remotos en Vibe y Mistral Medium 3.5 con una puntuación verificada por SWE-Bench del 77,6%

Los anillos de Urano son aún más extraños de lo que pensábamos

Sílvia Orriols admite que no todos sus candidatos serán “explícitamente nacionalistas catalanes”

Incendio en depósito de chatarra de Orihuela provoca enorme columna de humo cerca del hospital Vega Baja – The Leader