Mistral 7B cuantificado frente a TinyLlama para sistemas con recursos limitados | por Kennedy Selvadurai, PhD

Comparación de rendimiento entre estos modelos en cuanto a precisión y tiempo de respuesta en una configuración de preguntas y respuestas de RAG.

Generado usando Canva según lo solicitado por el autor.

Con la introducción del modelo de lenguaje de código abierto Mistral 7B por parte de una startup francesa, Mistral, el impresionante rendimiento demostrado por modelos propietarios como ChatGPT y claude.ai también estuvo disponible para la comunidad de código abierto. Para explorar la viabilidad de utilizar este modelo en sistemas con recursos limitados, su cuantificado Se ha demostrado que estas versiones mantienen un gran rendimiento.

Aunque el modelo Mistral 7B cuantificado de 2 bits pasó la prueba de precisión con gran éxito en nuestro estudio anterior, me tomaba alrededor de 2 minutos en promedio responder preguntas en una Mac. Entra TinyLlama [1]un modelo de lenguaje compacto de 1.100 millones preentrenado en 3 billones de tokens con la misma arquitectura y tokenizador que Llama 2. Está dirigido a entornos con más recursos limitados.

En este artículo, compararemos la precisión y el rendimiento del tiempo de respuesta de las capacidades de respuesta a preguntas del Mistral 7B cuantificado con el TinyLlama 1.1B cuantificado en una configuración de generación aumentada de recuperación (RAG) en conjunto.

Contenido
Habilitando tecnologías
Arquitectura del sistema
Configuración del entorno
Implementación
Resultados y discusiones
Pensamientos finales

Esta prueba se realizará en una MacBook Air M1 con 8 GB de RAM. Debido a sus recursos informáticos y de memoria limitados, estamos adoptando versiones cuantificadas de estos LLM. En esencia, la cuantificación implica representar los parámetros del modelo utilizando menos bits, lo que comprime efectivamente el modelo. Esta compresión da como resultado un uso reducido de la memoria, tiempos de ejecución más rápidos y una mayor eficiencia energética, pero comprometiendo la precisión. Usaremos los modelos Mistral 7B Instruct cuantificados de 2 bits y TinyLlama 1.1B Chat cuantificados de 5 bits en el formato GGUF para este estudio. GGUF es un formato binario diseñado para cargar y guardar modelos rápidamente. Para cargar un modelo GGUF de este tipo, usaremos el llama-cpp-python biblioteca, que es una…

Mistral 7B cuantificado frente a TinyLlama para sistemas con recursos limitados | por Kennedy Selvadurai, PhD | febrero de 2024

ByEquipo de 7 minutos

Comparación de rendimiento entre estos modelos en cuanto a precisión y tiempo de respuesta en una configuración de preguntas y respuestas de RAG.

By Equipo de 7 minutos

Related Post

Una implementación de codificación en OpenMementos de Microsoft con análisis de estructura de seguimiento, compresión de contexto y preparación de datos de ajuste fino

Conozca GitNexus: un motor de gráficos de conocimiento nativo de MCP de código abierto que brinda al código Claude y al cursor un conocimiento estructural completo de la base de código

Google DeepMind presenta Vision Banana: un generador de imágenes ajustado por instrucciones que supera a SAM 3 en segmentación y profundidad Anything V3 en estimación de profundidad métrica

You missed

El británico se adjudica la corona masculina de Mallorca 312

Noah Cyrus saca a relucir a Billy Ray Cyrus y Braison Cyrus

¿Cuántos perros salchicha se necesitarían para llegar a la luna?

Cuatro personas resultaron heridas cuando una atracción de feria se rompió en el aire dejando a los espectadores horrorizados « Euro Weekly News