Comparación de rendimiento entre estos modelos en cuanto a precisión y tiempo de respuesta en una configuración de preguntas y respuestas de RAG.
Con la introducción del modelo de lenguaje de código abierto Mistral 7B por parte de una startup francesa, Mistral, el impresionante rendimiento demostrado por modelos propietarios como ChatGPT y claude.ai también estuvo disponible para la comunidad de código abierto. Para explorar la viabilidad de utilizar este modelo en sistemas con recursos limitados, su cuantificado Se ha demostrado que estas versiones mantienen un gran rendimiento.
Aunque el modelo Mistral 7B cuantificado de 2 bits pasó la prueba de precisión con gran éxito en nuestro estudio anterior, me tomaba alrededor de 2 minutos en promedio responder preguntas en una Mac. Entra TinyLlama [1]un modelo de lenguaje compacto de 1.100 millones preentrenado en 3 billones de tokens con la misma arquitectura y tokenizador que Llama 2. Está dirigido a entornos con más recursos limitados.
En este artículo, compararemos la precisión y el rendimiento del tiempo de respuesta de las capacidades de respuesta a preguntas del Mistral 7B cuantificado con el TinyLlama 1.1B cuantificado en una configuración de generación aumentada de recuperación (RAG) en conjunto.
Contenido
Habilitando tecnologías
Arquitectura del sistema
Configuración del entorno
Implementación
Resultados y discusiones
Pensamientos finales
Esta prueba se realizará en una MacBook Air M1 con 8 GB de RAM. Debido a sus recursos informáticos y de memoria limitados, estamos adoptando versiones cuantificadas de estos LLM. En esencia, la cuantificación implica representar los parámetros del modelo utilizando menos bits, lo que comprime efectivamente el modelo. Esta compresión da como resultado un uso reducido de la memoria, tiempos de ejecución más rápidos y una mayor eficiencia energética, pero comprometiendo la precisión. Usaremos los modelos Mistral 7B Instruct cuantificados de 2 bits y TinyLlama 1.1B Chat cuantificados de 5 bits en el formato GGUF para este estudio. GGUF es un formato binario diseñado para cargar y guardar modelos rápidamente. Para cargar un modelo GGUF de este tipo, usaremos el llama-cpp-python biblioteca, que es una…