Investigadores de la Universidad de Washington presentan Fiddler: un motor de inferencia con uso eficiente de recursos para LLM con orquestación CPU-GPU

Los modelos de combinación de expertos (MoE) han revolucionado la inteligencia artificial al permitir la asignación dinámica de tareas a componentes especializados dentro de modelos más grandes. Sin embargo, un desafío importante en la adopción de modelos MoE es su implementación en entornos con recursos computacionales limitados. El gran tamaño de estos modelos a menudo supera las capacidades de memoria de las GPU estándar, lo que restringe su uso en entornos de bajos recursos. Esta limitación obstaculiza la eficacia de los modelos y desafía a los investigadores y desarrolladores que pretenden aprovechar los modelos MoE para tareas computacionales complejas sin acceso a hardware de alta gama.

Los métodos existentes para implementar modelos MoE en entornos restringidos normalmente implican descargar parte del cálculo del modelo a la CPU. Si bien este enfoque ayuda a gestionar las limitaciones de memoria de la GPU, introduce una latencia significativa debido a las lentas transferencias de datos entre la CPU y la GPU. Los modelos MoE de última generación también suelen emplear funciones de activación alternativas, como SiLU, lo que dificulta la aplicación directa de estrategias de explotación de la escasez. La poda de canales que no estén lo suficientemente cerca de cero podría afectar negativamente el rendimiento del modelo, lo que requeriría un enfoque más sofisticado para aprovechar la escasez.

Un equipo de investigadores de la Universidad de Washington presentó Fiddler, una solución innovadora diseñada para optimizar la implementación de modelos MoE mediante la orquestación eficiente de los recursos de CPU y GPU. Fiddler minimiza la sobrecarga de transferencia de datos mediante la ejecución de capas expertas en la CPU, lo que reduce la latencia asociada con el movimiento de datos entre la CPU y la GPU. Este enfoque aborda las limitaciones de los métodos existentes y mejora la viabilidad de implementar grandes modelos MoE en entornos con recursos limitados.

Fiddler se distingue por aprovechar las capacidades computacionales de la CPU para el procesamiento de capas expertos y al mismo tiempo minimizar el volumen de datos transferidos entre la CPU y la GPU. Esta metodología reduce drásticamente la latencia para la comunicación CPU-GPU, lo que permite que el sistema ejecute modelos MoE grandes, como el Mixtral-8x7B con más de 90 GB de parámetros, de manera eficiente en una sola GPU con memoria limitada. El diseño de Fiddler muestra una importante innovación técnica en la implementación del modelo de IA.

La eficacia de Fiddler queda subrayada por sus métricas de rendimiento, que demuestran una mejora de un orden de magnitud con respecto a los métodos de descarga tradicionales. El rendimiento se mide por la cantidad de tokens generados por segundo. Fiddler ejecutó con éxito el modelo Mixtral-8x7B sin comprimir en las pruebas, renderizando más de tres tokens por segundo en una sola GPU de 24 GB. Mejora con longitudes de salida más largas para la misma longitud de entrada, ya que se amortiza la latencia de la etapa de precarga. En promedio, Fiddler es más rápido que Eliseev Mazur entre 8,2 y 10,1 veces y más rápido que DeepSpeed-MII entre 19,4 y 22,5 veces, dependiendo del entorno.

En conclusión, Fiddler representa un importante avance al permitir la inferencia eficiente de modelos MoE en entornos con recursos computacionales limitados. Al utilizar ingeniosamente CPU y GPU para la inferencia de modelos, Fiddler supera los desafíos frecuentes que enfrentan los métodos de implementación tradicionales y ofrece una solución escalable que mejora la accesibilidad de los modelos MoE avanzados. Este avance puede potencialmente democratizar los modelos de IA a gran escala, allanando el camino para aplicaciones e investigaciones más amplias en inteligencia artificial.

Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🚀 LLMWare lanza SLIM: pequeños modelos de llamada de funciones especializadas para la automatización de varios pasos [Check out all the models]

Investigadores de la Universidad de Washington presentan Fiddler: un motor de inferencia con uso eficiente de recursos para LLM con orquestación CPU-GPU

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

NVIDIA lanza Nemotron-Labs-TwoTower: un modelo de lenguaje de difusión de peso abierto construido sobre una columna vertebral autorregresiva congelada Nemotron-3-Nano-30B-A3B

Simplifique el acceso de múltiples cuentas a los modelos de Amazon Bedrock con derechos administrados

CUP (Python útil común): creación de flujos de trabajo de Python confiables con el kit de herramientas de utilidad de Baidu

You missed

El descubrimiento de un planeta post-apocalíptico sugiere que la Tierra podría sobrevivir a la muerte del Sol: ScienceAlert

Markwayne Mullin les recuerda a todos que es un matón quejoso

Vicki Gunvalson ofrece información actualizada sobre su compromiso y matrimonio con Michael Smith

Conduzca más lento, ahorre dinero en gasolina. ¡Gracias Física!