A medida que los modelos se vuelven más pequeños, vemos cada vez más computadoras de consumo capaces de ejecutar LLM localmente. Esto reduce drásticamente las barreras para que las personas entrenen sus propios modelos y permite probar más técnicas de entrenamiento.
Una computadora de consumo que puede ejecutar LLM localmente bastante bien es una Mac de Apple. Apple aprovechó su silicio personalizado y creó una biblioteca de procesamiento de matrices llamada MLX. Al utilizar MLX, Apple puede ejecutar LLM mejor que muchas otras computadoras de consumo.
En esta publicación de blog, explicaré a alto nivel cómo funciona MLX y luego le mostraré cómo ajustar su propio LLM localmente usando MLX. Finalmente, aceleraremos nuestro modelo ajustado usando la cuantificación.
¡Vamos a sumergirnos!
¿Qué es MLX (y quién puede usarlo?)
MLX es una biblioteca de código abierto de Apple que permite a los usuarios de Mac ejecutar programas con tensores grandes de manera más eficiente. Naturalmente, cuando queremos entrenar o ajustar un modelo, esta biblioteca resulta útil.
La forma en que funciona MLX es siendo muy eficiente con las transferencias de memoria entre su Unidad Central de Procesamiento (CPU), Unidad de Procesamiento de Gráficos (GPU) y…