1nlkfnn Vvy3ddx Ptji7 Q.png

Ejecutando los modelos 7B y 22B en Google Colab

10 minutos de lectura

Hace 23 horas

Imagen por Imagen IXdesempaquetar

No hace mucho, todos los canales de noticias de TI informaron sobre el nuevo modelo abierto Mixtral 8x22B, que supera a ChatGPT 3.5 en puntos de referencia como MMLU (comprensión masiva de lenguajes multitarea) o WinoGrande (razonamiento de sentido común). Este es un gran logro para el mundo de los modelos abiertos. Naturalmente, los puntos de referencia académicos son interesantes, pero ¿cómo funciona este modelo en la práctica? ¿Qué requisitos de sistema tiene? ¿Es realmente mejor en comparación con los modelos de lenguaje anteriores? En este artículo, probaré cuatro modelos diferentes (7B, 8x7B, 22B y 8x22B, con y sin arquitectura «Mezcla de expertos») y veremos los resultados.

¡Empecemos!

Como nota al margen, no tengo ninguna relación comercial con Mistral AI y todas las pruebas aquí las realizo por mi cuenta.

Mezcla dispersa de expertos (SMoE)

Ya al ​​comienzo de la era LLM, se supo que los modelos más grandes son, en general, más inteligentes, tienen más conocimientos y pueden lograr mejores resultados. Pero los modelos más grandes también son más costosos desde el punto de vista computacional. Nadie esperará la respuesta del chatbot si tarda 5 minutos. La idea intuitiva detrás de la “mezcla de expertos” es…