Meta presenta Kernelllm: un 8B LLM que traduce los módulos de Pytorch en kernels de GPU Triton eficientes

Meta ha introducido KernelllM, un modelo de lenguaje de 8 mil millones de parámetros ajustados de Llama 3.1 Instrucc, con el objetivo de automatizar la traducción de módulos de Pytorch a kernels de GPU Triton eficientes. Esta iniciativa busca reducir las barreras para la programación de GPU al simplificar los procesos de desarrollo del núcleo.

Descripción técnica

KernellLM está entrenado en aproximadamente 25,000 ejemplos emparejados de módulos de Pytorch y sus correspondientes implementaciones de núcleos Triton. El conjunto de datos, conocido como kernelbook, comprende código filtrado desde la pila y muestras generadas sintéticamente utilizando torch.compile() y otras técnicas de solicitación.

El modelo emplea un enfoque de ajuste de instrucciones supervisado, utilizando plantillas de inmediato que incluyen ejemplos de formato durante la capacitación y la evaluación. El entrenamiento se realizó en más de 10 épocas con un tamaño por lotes de 32, utilizando 16 GPU durante aproximadamente 12 horas (192 horas de GPU).

Evaluación de rendimiento

El rendimiento de KernellLM se evaluó utilizando Kernelbench-Triton, un punto de referencia diseñado para evaluar la generación de núcleos Triton de los módulos Pytorch. El modelo logró una puntuación PASS@1 de 20.2, superando modelos más grandes como GPT-4O (~ 200b parámetros) y Deepseek V3 (parámetros 671b), que obtuvieron 15 y 16 respectivamente. Con múltiples inferencias, los puntajes Pass@10 y Pass@20 de KernellLM alcanzaron 51.8 y 57.1, lo que indica un rendimiento robusto en la generación de núcleos correctos.

Implicaciones para la programación de GPU

Al automatizar la generación de núcleos Triton de los módulos de Pytorch, Kernelllm tiene el potencial de optimizar el desarrollo de aplicaciones aceleradas por GPU. Esto podría ser particularmente beneficioso para los desarrolladores que buscan optimizar el rendimiento sin profundizar en las complejidades de la programación manual del núcleo.

La capacidad del modelo para producir núcleos eficientes también puede contribuir a una utilización más accesible y eficiente de los recursos de GPU, lo que puede afectar áreas como aprendizaje profundo entrenamiento modelo e inferencia.


Mira el Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.