Este artículo es parte de un serie más grande sobre el uso de modelos de lenguaje grandes (LLM) en la práctica. Si bien la inmensa escala de los LLM es responsable de su impresionante desempeño en una amplia gama de casos de uso, esto presenta Desafíos en su aplicación a problemas del mundo realEn este artículo, analizo cómo podemos superar estos desafíos mediante la compresión de los LLM. Comienzo con una descripción general de alto nivel de los conceptos clave y luego explico un ejemplo concreto con código Python.
El mantra de la IA de 2023 fue “Cuanto más grande, mejordonde la ecuación para mejorar los modelos de lenguaje era bastante simple: Más datos + más parámetros + más cálculo = mejor rendimiento [1].
Si bien es probable que esto siga siendo así (¿GPT-5 llegará pronto?), existen desafíos obvios al trabajar con modelos de parámetros de más de 100 000 millones. Por ejemplo, un modelo de parámetros de 100 000 millones que utilice FP16 requiere 200 GB justo ¡Para almacenamiento!
No hace falta decir que la mayoría de los dispositivos de consumo (por ejemplo, teléfonos, tabletas, computadoras portátiles) no pueden admitir modelos tan grandes. Pero… ¿qué pasaría si pudiéramos hacerlos más pequeños?
Compresión del modelo tiene como objetivo Reducir el tamaño de los modelos de aprendizaje automático sin sacrificar el rendimiento [2]Esto funciona para redes neuronales (grandes)…