Si eres como yo, probablemente te entusiasmen los últimos y mejores LLM de código abierto, desde modelos como Llama 3 hasta el más compacto Phi-3 Mini. Pero antes de lanzarse a implementar su modelo de lenguaje, hay un factor crucial que debe planificar: Memoria GPU. Si juzga mal esto, su nueva y brillante aplicación web podría atascarse, funcionar con lentitud o acumular elevadas facturas de la nube. Para facilitarte las cosas, te explico qué es la cuantización y te he preparado un Hoja de referencia para la planificación de la memoria de la GPU en 2024— un resumen útil de los últimos LLM de código abierto en el mercado y lo que necesita saber antes de la implementación.
Al implementar LLM, es arriesgado adivinar cuánta memoria GPU necesita. Demasiado poco y su modelo falla. Demasiado y estarás quemando dinero sin ningún motivo.
Comprender estos requisitos de memoria de antemano es como saber cuánto equipaje puede caber en su automóvil antes de un viaje por carretera: le ahorra dolores de cabeza y mantiene la eficiencia.