1 Ic4ynmel Rx1rj2afziqq.png

Experimentar con modelos de lenguaje grandes de forma gratuita (Parte 3)

Imagen de Markus Spiske, desempaquetar

En el primera parte Para seguir la historia, utilizamos una instancia gratuita de Google Colab para ejecutar un modelo Mistral-7B y extraer información utilizando la base de datos FAISS (Facebook AI Similarity Search). En el segunda parte A partir de la historia, utilizamos un modelo LLaMA-13B y una biblioteca LangChain para crear un chat con resumen de texto y otras funciones. En esta parte, mostraré cómo usar HuggingFace 🤗 Inferencia de generación de texto (TGI). TGI es un conjunto de herramientas que nos permite ejecutar un modelo de lenguaje grande (LLM) como servicio. Como en las partes anteriores, lo probaremos en la instancia de Google Colab, de forma totalmente gratuita.

Inferencia de generación de texto

Text Generation Inference (TGI) es un conjunto de herramientas listo para producción para implementar y servir modelos de lenguaje grandes (LLM). Ejecutar LLM como servicio nos permite usarlo con diferentes clientes, desde cuadernos Python hasta aplicaciones móviles. Es interesante probar la funcionalidad del TGI, pero resultó que los requisitos del sistema son bastante altos y no todo funciona tan bien como se esperaba:

  • Una instancia gratuita de Google Colab proporciona sólo 12,7 GB de RAM, que a menudo no es suficiente para cargar un modelo de 13B o incluso 7B «en una sola pieza». El AutoModelForCausalLM La clase de HuggingFace nos permite usar modelos «fragmentados» que se dividieron en partes más pequeñas. Funciona bien en Python, pero por alguna razón, esta funcionalidad no funciona en TGI y la instancia falla con un error de «memoria insuficiente».
  • El tamaño de la VRAM puede ser un segundo problema. En mis pruebas con TGI v1.3.4, la cuantificación de 8 bits funcionó bien con un bitsandbytes biblioteca, pero la cuantificación de 4 bits (bitsandbytes-nf4 opción) no funcionó. Verifiqué esto especialmente en Colab Pro en la GPU NVIDIA A100 de 40 GB; incluso con bitsandbytes-nf4 o bitsandbytes-fp4 habilitado, el tamaño de VRAM requerido era 16,4 GB, lo cual es demasiado alto para una instancia de Colab gratuita (e incluso para los usuarios de Colab Pro, el precio de uso de NVIDIA A100 de 40 GB es entre 2 y 4 veces mayor en comparación con el de NVIDIA T4 de 16 GB).
  • TGI necesita que Rust esté instalado. Una instancia gratuita de Google Colab no tiene un terminal completo, por lo que la instalación adecuada también es un desafío.