Hoy nos complace anunciar que Mistral-NeMo-Base-2407 y Mistral-NeMo-Instrucción-2407—doce mil millones de modelos de lenguaje de gran tamaño de parámetros de Mistral AI que sobresalen en la generación de texto, están disponibles para los clientes a través de Inicio rápido de Amazon SageMaker. Puede probar estos modelos con SageMaker JumpStart, un centro de aprendizaje automático (ML) que brinda acceso a algoritmos y modelos que se pueden implementar con un solo clic para ejecutar inferencia. En esta publicación, explicamos cómo descubrir, implementar y utilizar los modelos Mistral-NeMo-Instruct-2407 y Mistral-NeMo-Base-2407 para una variedad de casos de uso del mundo real.
Descripción general de Mistral-NeMo-Instruct-2407 y Mistral-NeMo-Base-2407
Mistral Nemoun potente modelo de parámetros de 12B desarrollado mediante la colaboración entre Mistral AI y NVIDIA y lanzado bajo la licencia Apache 2.0, ahora está disponible en SageMaker JumpStart. Este modelo representa un avance significativo en las capacidades y accesibilidad de la IA multilingüe.
Funciones y capacidades clave
Mistral NeMo presenta una ventana de contexto de token de 128k, lo que permite el procesamiento de contenido extenso y extenso. El modelo demuestra un sólido rendimiento en razonamiento, conocimiento mundial y precisión de codificación. Tanto los puntos de control básicos previamente entrenados como los ajustados por instrucciones están disponibles bajo la licencia Apache 2.0, lo que los hace accesibles para investigadores y empresas. El entrenamiento consciente de la cuantificación del modelo facilita un rendimiento óptimo de la inferencia del FP8 sin comprometer la calidad.
Soporte multilingüe
Mistral NeMo está diseñado para aplicaciones globales, con un sólido rendimiento en varios idiomas, incluidos inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi. Esta capacidad multilingüe, combinada con la llamada de funciones integrada y una amplia ventana de contexto, ayuda a que la IA avanzada sea más accesible en diversos paisajes lingüísticos y culturales.
Tekken: tokenización avanzada
El modelo utiliza Tekken, un tokenizador innovador basado en tiktoken. Tekken, formado en más de 100 idiomas, ofrece una eficiencia de compresión mejorada para texto y código fuente en lenguaje natural.
Descripción general de SageMaker JumpStart
SageMaker JumpStart es un servicio totalmente administrado que ofrece modelos básicos de última generación para diversos casos de uso, como redacción de contenido, generación de código, respuesta a preguntas, redacción, resumen, clasificación y recuperación de información. Proporciona una colección de modelos previamente entrenados que puede implementar rápidamente, acelerando el desarrollo y la implementación de aplicaciones de aprendizaje automático. Uno de los componentes clave de SageMaker JumpStart es Model Hub, que ofrece un amplio catálogo de modelos previamente entrenados, como DBRX, para una variedad de tareas.
Ahora puede descubrir e implementar ambos modelos Mistral NeMo con unos pocos clics en Amazon SageMaker Estudio o mediante programación a través del SDK de Python de SageMaker, lo que le permite derivar controles de rendimiento del modelo y operaciones de aprendizaje automático (MLOps) con Amazon SageMaker características tales como Canalizaciones de Amazon SageMaker, Depurador de Amazon SageMakero registros de contenedor. El modelo se implementa en un entorno seguro de AWS y bajo los controles de su nube privada virtual (VPC), lo que ayuda a respaldar la seguridad de los datos.
Requisitos previos
Para probar ambos modelos NeMo en SageMaker JumpStart, necesitará los siguientes requisitos previos:
Descubra los modelos Mistral NeMo en SageMaker JumpStart
Puede acceder a los modelos NeMo a través de SageMaker JumpStart en la interfaz de usuario de SageMaker Studio y el SDK de SageMaker Python. En esta sección, repasamos cómo descubrir los modelos en SageMaker Studio.
SageMaker Studio es un entorno de desarrollo integrado (IDE) que proporciona una única interfaz visual basada en web donde puede acceder a herramientas diseñadas específicamente para realizar pasos de desarrollo de ML, desde la preparación de datos hasta la creación, el entrenamiento y la implementación de sus modelos de ML. Para obtener más detalles sobre cómo comenzar y configurar SageMaker Studio, consulte Amazon SageMaker Estudio.
En SageMaker Studio, puede acceder a SageMaker JumpStart eligiendo Empezar en el panel de navegación.
Entonces elige AbrazosCara.
Desde la página de inicio de SageMaker JumpStart, puede buscar NeMo en el cuadro de búsqueda. Los resultados de la búsqueda mostrarán Instrucción Mistral NeMo y Base Mistral NeMo.
Puede elegir la tarjeta de modelo para ver detalles sobre el modelo, como la licencia, los datos utilizados para entrenar y cómo utilizar el modelo. También encontrarás el Desplegar para implementar el modelo y crear un punto final.
Implementar el modelo en SageMaker JumpStart
La implementación comienza cuando elige el botón Implementar. Una vez finalizada la implementación, verá que se crea un punto final. Puede probar el punto final pasando una carga útil de solicitud de inferencia de muestra o seleccionando la opción de prueba mediante el SDK. Cuando seleccione la opción para usar el SDK, verá un código de ejemplo que puede usar en el editor de cuaderno de su elección en SageMaker Studio.
Implementar el modelo con SageMaker Python SDK
Para implementar usando el SDK, comenzamos seleccionando el modelo Mistral NeMo Base, especificado por el model_id con el valor huggingface-llm-mistral-nemo-base-2407. Puede implementar su elección de los modelos seleccionados en SageMaker con el siguiente código. De manera similar, puede implementar NeMo Instruct usando su propia ID de modelo.
Esto implementa el modelo en SageMaker con configuraciones predeterminadas, incluido el tipo de instancia predeterminado y las configuraciones de VPC predeterminadas. Puede cambiar estas configuraciones especificando valores no predeterminados en JumpStartModelo. El valor de EULA debe definirse explícitamente como True para aceptar el acuerdo de licencia de usuario final (EULA). También asegúrese de tener el límite de servicio a nivel de cuenta para usar ml.g6.12xlarge para uso de endpoints como una o más instancias. Puedes seguir las instrucciones en Cuotas de servicio de AWS para solicitar un aumento de cuota de servicio. Una vez implementado, puede ejecutar inferencia contra el punto final implementado a través del predictor de SageMaker:
Una cosa importante a tener en cuenta aquí es que estamos usando el contenedor de inferencia djl-lmi v12entonces estamos siguiendo el esquema de API de finalización de chat de inferencia de modelo grande al enviar una carga útil tanto a Mistral-NeMo-Base-2407 como a Mistral-NeMo-Instruct-2407.
Mistral-NeMo-Base-2407
Puede interactuar con el modelo Mistral-NeMo-Base-2407 como otros modelos de generación de texto estándar, donde el modelo procesa una secuencia de entrada y genera las siguientes palabras predichas en la secuencia. En esta sección, proporcionamos algunos mensajes de ejemplo y resultados de muestra. Tenga en cuenta que el modelo base no tiene instrucciones ajustadas.
Completar texto
Tareas que implican predecir el siguiente token o completar los tokens que faltan en una secuencia:
El siguiente es el resultado:
Instrucción Mistral NeMo
El modelo Mistral-NeMo-Instruct-2407 es una demostración rápida de que el modelo base se puede ajustar para lograr un rendimiento convincente. Puede seguir los pasos proporcionados para implementar el modelo y utilizar el model_id valor de huggingface-llm-mistral-nemo-instruct-2407 en cambio.
El modelo NeMo ajustado por instrucciones se puede probar con las siguientes tareas:
Generación de código
Mistral NeMo Instruct demuestra fortalezas comparadas para tareas de codificación. Mistral afirma que su tokenizador Tekken para NeMo es aproximadamente un 30% más eficiente a la hora de comprimir el código fuente. Por ejemplo, consulte el siguiente código:
El siguiente es el resultado:
El modelo demuestra un sólido rendimiento en tareas de generación de código, con el completion_tokens ofreciendo información sobre cómo la compresión de código del tokenizador optimiza efectivamente la representación de los lenguajes de programación utilizando menos tokens.
Matemáticas y razonamiento avanzados.
El modelo también informa fortalezas en precisión matemática y de razonamiento. Por ejemplo, consulte el siguiente código:
El siguiente es el resultado:
En esta tarea, probemos el nuevo tokenizador Tekken de Mistral. Mistral afirma que el tokenizador es dos veces y tres veces más eficiente a la hora de comprimir coreano y árabe, respectivamente.
Aquí usamos algo de texto para traducir:
Configuramos nuestro mensaje para instruir al modelo sobre la traducción al coreano y árabe:
Luego podemos configurar la carga útil:
El siguiente es el resultado:
Los resultados de la traducción demuestran cómo el número de completion_tokens El uso se reduce significativamente, incluso para tareas que normalmente requieren un uso intensivo de tokens, como traducciones que involucran idiomas como el coreano y el árabe. Esta mejora es posible gracias a las optimizaciones proporcionadas por el tokenizador de Tekken. Esta reducción es particularmente valiosa para aplicaciones con muchos tokens, incluidos resúmenes, generación de lenguaje y conversaciones de varios turnos. Al mejorar la eficiencia de los tokens, el tokenizador de Tekken permite manejar más tareas dentro de las mismas limitaciones de recursos, lo que lo convierte en una herramienta invaluable para optimizar los flujos de trabajo donde el uso de tokens impacta directamente el rendimiento y el costo.
Limpiar
Una vez que haya terminado de ejecutar el cuaderno, asegúrese de eliminar todos los recursos que creó en el proceso para evitar facturación adicional. Utilice el siguiente código:
Conclusión
En esta publicación, le mostramos cómo comenzar con Mistral NeMo Base e Instruct en SageMaker Studio e implementar el modelo para inferencia. Dado que los modelos básicos están previamente entrenados, pueden ayudar a reducir los costos de capacitación e infraestructura y permitir la personalización para su caso de uso. Visita SageMaker JumpStart en SageMaker Studio ahora para empezar.
Para obtener más recursos de Mistral en AWS, consulte el Repositorio Mistral-en-AWS GitHub.
Sobre los autores
Niithiyn Vijeaswaran es un arquitecto de soluciones especializado en IA generativa en el equipo de ciencia de modelos de terceros de AWS. Su área de enfoque es la IA generativa y los aceleradores de IA de AWS. Tiene una Licenciatura en Informática y Bioinformática.
Preston Tuggle es un arquitecto senior de soluciones especializado que trabaja en IA generativa.
shane rai es un especialista principal en IA generativa de la Organización Mundial de Especialistas de AWS (WWSO). Trabaja con clientes de todos los sectores para resolver sus necesidades comerciales más apremiantes e innovadoras utilizando la amplia gama de servicios de IA/ML basados en la nube proporcionados por AWS, incluidas ofertas de modelos de proveedores de modelos básicos de primer nivel.