Conozca OLLM: una biblioteca de pitón liviana que trae una inferencia de 100k-Context LLM a GPU de consumo de 8 GB a través de la descarga de SSD, no se requiere cuantificación.
OLLM es una biblioteca de pitón liviana construida sobre los transformadores de Huggingface y Pytorch y ejecuta transformadores de contexto grande en las GPU de NVIDIA al descargar agresivamente pesos…