Mistral-NeMo-Instruct-2407 y Mistral-NeMo-Base-2407 ahora están disponibles en SageMaker JumpStart

Hoy nos complace anunciar que Mistral-NeMo-Base-2407 y Mistral-NeMo-Instrucción-2407—doce mil millones de modelos de lenguaje de gran tamaño de parámetros de Mistral AI que sobresalen en la generación de texto, están disponibles para los clientes a través de Inicio rápido de Amazon SageMaker. Puede probar estos modelos con SageMaker JumpStart, un centro de aprendizaje automático (ML) que brinda acceso a algoritmos y modelos que se pueden implementar con un solo clic para ejecutar inferencia. En esta publicación, explicamos cómo descubrir, implementar y utilizar los modelos Mistral-NeMo-Instruct-2407 y Mistral-NeMo-Base-2407 para una variedad de casos de uso del mundo real.

Descripción general de Mistral-NeMo-Instruct-2407 y Mistral-NeMo-Base-2407

Mistral Nemoun potente modelo de parámetros de 12B desarrollado mediante la colaboración entre Mistral AI y NVIDIA y lanzado bajo la licencia Apache 2.0, ahora está disponible en SageMaker JumpStart. Este modelo representa un avance significativo en las capacidades y accesibilidad de la IA multilingüe.

Funciones y capacidades clave

Mistral NeMo presenta una ventana de contexto de token de 128k, lo que permite el procesamiento de contenido extenso y extenso. El modelo demuestra un sólido rendimiento en razonamiento, conocimiento mundial y precisión de codificación. Tanto los puntos de control básicos previamente entrenados como los ajustados por instrucciones están disponibles bajo la licencia Apache 2.0, lo que los hace accesibles para investigadores y empresas. El entrenamiento consciente de la cuantificación del modelo facilita un rendimiento óptimo de la inferencia del FP8 sin comprometer la calidad.

Soporte multilingüe

Mistral NeMo está diseñado para aplicaciones globales, con un sólido rendimiento en varios idiomas, incluidos inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi. Esta capacidad multilingüe, combinada con la llamada de funciones integrada y una amplia ventana de contexto, ayuda a que la IA avanzada sea más accesible en diversos paisajes lingüísticos y culturales.

Tekken: tokenización avanzada

El modelo utiliza Tekken, un tokenizador innovador basado en tiktoken. Tekken, formado en más de 100 idiomas, ofrece una eficiencia de compresión mejorada para texto y código fuente en lenguaje natural.

Descripción general de SageMaker JumpStart

SageMaker JumpStart es un servicio totalmente administrado que ofrece modelos básicos de última generación para diversos casos de uso, como redacción de contenido, generación de código, respuesta a preguntas, redacción, resumen, clasificación y recuperación de información. Proporciona una colección de modelos previamente entrenados que puede implementar rápidamente, acelerando el desarrollo y la implementación de aplicaciones de aprendizaje automático. Uno de los componentes clave de SageMaker JumpStart es Model Hub, que ofrece un amplio catálogo de modelos previamente entrenados, como DBRX, para una variedad de tareas.

Ahora puede descubrir e implementar ambos modelos Mistral NeMo con unos pocos clics en Amazon SageMaker Estudio o mediante programación a través del SDK de Python de SageMaker, lo que le permite derivar controles de rendimiento del modelo y operaciones de aprendizaje automático (MLOps) con Amazon SageMaker características tales como Canalizaciones de Amazon SageMaker, Depurador de Amazon SageMakero registros de contenedor. El modelo se implementa en un entorno seguro de AWS y bajo los controles de su nube privada virtual (VPC), lo que ayuda a respaldar la seguridad de los datos.

Requisitos previos

Para probar ambos modelos NeMo en SageMaker JumpStart, necesitará los siguientes requisitos previos:

Descubra los modelos Mistral NeMo en SageMaker JumpStart

Puede acceder a los modelos NeMo a través de SageMaker JumpStart en la interfaz de usuario de SageMaker Studio y el SDK de SageMaker Python. En esta sección, repasamos cómo descubrir los modelos en SageMaker Studio.

SageMaker Studio es un entorno de desarrollo integrado (IDE) que proporciona una única interfaz visual basada en web donde puede acceder a herramientas diseñadas específicamente para realizar pasos de desarrollo de ML, desde la preparación de datos hasta la creación, el entrenamiento y la implementación de sus modelos de ML. Para obtener más detalles sobre cómo comenzar y configurar SageMaker Studio, consulte Amazon SageMaker Estudio.

En SageMaker Studio, puede acceder a SageMaker JumpStart eligiendo Empezar en el panel de navegación.

Entonces elige AbrazosCara.

Desde la página de inicio de SageMaker JumpStart, puede buscar NeMo en el cuadro de búsqueda. Los resultados de la búsqueda mostrarán Instrucción Mistral NeMo y Base Mistral NeMo.

Puede elegir la tarjeta de modelo para ver detalles sobre el modelo, como la licencia, los datos utilizados para entrenar y cómo utilizar el modelo. También encontrarás el Desplegar para implementar el modelo y crear un punto final.

Implementar el modelo en SageMaker JumpStart

La implementación comienza cuando elige el botón Implementar. Una vez finalizada la implementación, verá que se crea un punto final. Puede probar el punto final pasando una carga útil de solicitud de inferencia de muestra o seleccionando la opción de prueba mediante el SDK. Cuando seleccione la opción para usar el SDK, verá un código de ejemplo que puede usar en el editor de cuaderno de su elección en SageMaker Studio.

Implementar el modelo con SageMaker Python SDK

Para implementar usando el SDK, comenzamos seleccionando el modelo Mistral NeMo Base, especificado por el model_id con el valor huggingface-llm-mistral-nemo-base-2407. Puede implementar su elección de los modelos seleccionados en SageMaker con el siguiente código. De manera similar, puede implementar NeMo Instruct usando su propia ID de modelo.

from sagemaker.jumpstart.model import JumpStartModel 

accept_eula = True 

model = JumpStartModel(model_id="huggingface-llm-mistral-nemo-base-2407") 
predictor = model.deploy(accept_eula=accept_eula)

Esto implementa el modelo en SageMaker con configuraciones predeterminadas, incluido el tipo de instancia predeterminado y las configuraciones de VPC predeterminadas. Puede cambiar estas configuraciones especificando valores no predeterminados en JumpStartModelo. El valor de EULA debe definirse explícitamente como True para aceptar el acuerdo de licencia de usuario final (EULA). También asegúrese de tener el límite de servicio a nivel de cuenta para usar ml.g6.12xlarge para uso de endpoints como una o más instancias. Puedes seguir las instrucciones en Cuotas de servicio de AWS para solicitar un aumento de cuota de servicio. Una vez implementado, puede ejecutar inferencia contra el punto final implementado a través del predictor de SageMaker:

payload = {
    "messages": [
        {
            "role": "user",
            "content": "Hello"
        }
    ],
    "max_tokens": 1024,
    "temperature": 0.3,
    "top_p": 0.9,
}

response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
print(response)

Una cosa importante a tener en cuenta aquí es que estamos usando el contenedor de inferencia djl-lmi v12entonces estamos siguiendo el esquema de API de finalización de chat de inferencia de modelo grande al enviar una carga útil tanto a Mistral-NeMo-Base-2407 como a Mistral-NeMo-Instruct-2407.

Mistral-NeMo-Base-2407

Puede interactuar con el modelo Mistral-NeMo-Base-2407 como otros modelos de generación de texto estándar, donde el modelo procesa una secuencia de entrada y genera las siguientes palabras predichas en la secuencia. En esta sección, proporcionamos algunos mensajes de ejemplo y resultados de muestra. Tenga en cuenta que el modelo base no tiene instrucciones ajustadas.

Completar texto

Tareas que implican predecir el siguiente token o completar los tokens que faltan en una secuencia:

payload = {
    "messages": [
        {
            "role": "user",
            "content": "The capital of France is ___."
        }
    ],
    "max_tokens": 10,
    "temperature": 0.3,
    "top_p": 0.9,
}

response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
print(response)

El siguiente es el resultado:

Paris
The capital of France is Paris.

Instrucción Mistral NeMo

El modelo Mistral-NeMo-Instruct-2407 es una demostración rápida de que el modelo base se puede ajustar para lograr un rendimiento convincente. Puede seguir los pasos proporcionados para implementar el modelo y utilizar el model_id valor de huggingface-llm-mistral-nemo-instruct-2407 en cambio.

El modelo NeMo ajustado por instrucciones se puede probar con las siguientes tareas:

Generación de código

Mistral NeMo Instruct demuestra fortalezas comparadas para tareas de codificación. Mistral afirma que su tokenizador Tekken para NeMo es aproximadamente un 30% más eficiente a la hora de comprimir el código fuente. Por ejemplo, consulte el siguiente código:

payload = {
    "messages": [
        {
            "role": "user",
            "content": """Create a Binary Search Tree class with methods for insertion, searching, and in-order traversal."""
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 0.9,
}
text_response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
tokens = predictor.predict(payload)['usage']
print(text_response)
print(tokens)

El siguiente es el resultado:

class Node:
    def __init__(self, key):
        self.key = key
        self.left = None
        self.right = None

class BinarySearchTree:
    def __init__(self):
        self.root = None

    def insert(self, key):
        if not self.root:
            self.root = Node(key)
        else:
            self._insert(self.root, key)

    def _insert(self, node, key):
        if key < node.key:
            if node.left:
                self._insert(node.left, key)
            else:
                node.left = Node(key)
        elif key > node.key:
            if node.right:
                self._insert(node.right, key)
            else:
                node.right = Node(key)

    def search(self, key):
        return self._search(self.root, key)

    def _search(self, node, key):
        if not node or node.key == key:
            return node

        if key < node.key:
            return self._search(node.left, key)
        else:
            return self._search(node.right, key)

    def inorder_traversal(self):
        self._inorder_traversal(self.root)
        print()

    def _inorder_traversal(self, node):
        if node:
            self._inorder_traversal(node.left)
            print(node.key, end=" ")
            self._inorder_traversal(node.right)

# Example usage:
bst = BinarySearchTree()
bst.insert(50)
bst.insert(30)
bst.insert(20)
bst.insert(40)
bst.insert(70)
bst.insert(60)
bst.insert(80)

print("In-order traversal:")
bst.inorder_traversal()  # Output: 20 30 40 50 60 70 80

print(f"Search 40: {bst.search(40).key if bst.search(40) else 'Not found'}")
print(f"Search 90: {bst.search(90).key if bst.search(90) else 'Not found'}")
{'prompt_tokens': 22, 'completion_tokens': 433, 'total_tokens': 455}

El modelo demuestra un sólido rendimiento en tareas de generación de código, con el completion_tokens ofreciendo información sobre cómo la compresión de código del tokenizador optimiza efectivamente la representación de los lenguajes de programación utilizando menos tokens.

Matemáticas y razonamiento avanzados.

El modelo también informa fortalezas en precisión matemática y de razonamiento. Por ejemplo, consulte el siguiente código:

payload = {
    "messages": [
        {   "role": "system", 
            "content": "You are an expert in mathematics and reasoning. Your role is to provide examples, explanations, and insights related to mathematical concepts, problem-solving techniques, and logical reasoning.",
            "role": "user",
            "content": """Calculating the orbital period of an exoplanet:
             Given: An exoplanet orbits its star at a distance of 2.5 AU (Astronomical Units). The star has a mass of 1.2 solar masses.
             Task: Calculate the orbital period of the exoplanet in Earth years."""
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 0.9,
}
response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
print(response)

El siguiente es el resultado:

To calculate the orbital period of an exoplanet, we can use Kepler's Third Law, which states that the square of the orbital period (P) is directly proportional to the cube of the semi-major axis (a) of the orbit and inversely proportional to the mass (M) of the central body. The formula is:

P^2 = (4 * π^2 * a^3) / (G * M)

where:
- P is the orbital period in years,
- a is the semi-major axis in AU (Astronomical Units),
- G is the gravitational constant (6.67430 × 10^-11 m^3 kg^-1 s^-2),
- M is the mass of the star in solar masses.

First, we need to convert the mass of the star from solar masses to kilograms. The mass of the Sun is approximately 1.98847 × 10^30 kg. So, the mass of the star is:

M = 1.2 * 1.98847 × 10^30 kg = 2.386164 × 10^30 kg

Now, we can plug the values into Kepler's Third Law:

P^2 = (4 * π^2 * (2.5 AU)^3) / (G * M)

Since 1 AU is approximately 1.496 × 10^11 meters, the semi-major axis in meters is:

a = 2.5 AU * 1.496 × 10^11 m/AU = 3.74 × 10^12 m

Now, we can calculate P^2:

P^2 = (4 * π^2 * (3.74 × 10^12 m)^3) / (6.67430 × 10^-11 m^3 kg^-1 s^-2 * 2.386164 × 10^30 kg)

P^2 = (4 * π^2 * 5.62 × 10^36 m^3) / (1.589 × 10^20 m^3 kg^-1 s^-2)

P^2 = (4 * π^2 * 5.62 × 10^36 m^3) / (1.589 × 10^20 m^3 kg^-1 s^-2)

P^2 = 4.15 × 10^16 s^2

Now, we take the square root to find the orbital period in seconds:

P = √(4.15 × 10^16 s^2) ≈ 2.04 × 10^8 s

Finally, we convert the orbital period from seconds to Earth years (1 Earth year = 31,557,600 seconds):

P = (2.04 × 10^8 s) / (31,557,600 s/year) ≈ 6.47 years

Therefore, the orbital period of the exoplanet is approximately 6.47 Earth years.

Tarea de traducción de idiomas

En esta tarea, probemos el nuevo tokenizador Tekken de Mistral. Mistral afirma que el tokenizador es dos veces y tres veces más eficiente a la hora de comprimir coreano y árabe, respectivamente.

Aquí usamos algo de texto para traducir:

text= """
"How can our business leverage Mistral NeMo with our new RAG application?"
"What is our change management strategy once we roll out this new application to the field?
"""

Configuramos nuestro mensaje para instruir al modelo sobre la traducción al coreano y árabe:

prompt=f"""

text={text}

Translate the following text into these languages:

1. Korean
2. Arabic

Label each language section accordingly""".format(text=text)

Luego podemos configurar la carga útil:

payload = {
    "messages": [
        {   "role": "system", 
            "content": "You are an expert in language translation.",
            "role": "user",
            "content": prompt
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 0.9,
}
#response = predictor.predict(payload)
text_response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
tokens = predictor.predict(payload)['usage']
print(text_response)
print(tokens)

El siguiente es el resultado:

**1. Korean**

- "우리의 비즈니스가 Mistral NeMo를 어떻게 활용할 수 있을까요?"
- "이 새 애플리케이션을 현장에 롤아웃할 때 우리의 변화 관리 전략은 무엇입니까?"

**2. Arabic**

- "كيف يمكن لعمليتنا الاست من Mistral NeMo مع تطبيق RAG الجديد؟"
- "ما هو استراتيجيتنا في إدارة التغيير بعد تفعيل هذا التطبيق الجديد في الميدان؟"
{'prompt_tokens': 61, 'completion_tokens': 243, 'total_tokens': 304}

Los resultados de la traducción demuestran cómo el número de completion_tokens El uso se reduce significativamente, incluso para tareas que normalmente requieren un uso intensivo de tokens, como traducciones que involucran idiomas como el coreano y el árabe. Esta mejora es posible gracias a las optimizaciones proporcionadas por el tokenizador de Tekken. Esta reducción es particularmente valiosa para aplicaciones con muchos tokens, incluidos resúmenes, generación de lenguaje y conversaciones de varios turnos. Al mejorar la eficiencia de los tokens, el tokenizador de Tekken permite manejar más tareas dentro de las mismas limitaciones de recursos, lo que lo convierte en una herramienta invaluable para optimizar los flujos de trabajo donde el uso de tokens impacta directamente el rendimiento y el costo.

Limpiar

Una vez que haya terminado de ejecutar el cuaderno, asegúrese de eliminar todos los recursos que creó en el proceso para evitar facturación adicional. Utilice el siguiente código:

predictor.delete_model()
predictor.delete_endpoint()

Conclusión

En esta publicación, le mostramos cómo comenzar con Mistral NeMo Base e Instruct en SageMaker Studio e implementar el modelo para inferencia. Dado que los modelos básicos están previamente entrenados, pueden ayudar a reducir los costos de capacitación e infraestructura y permitir la personalización para su caso de uso. Visita SageMaker JumpStart en SageMaker Studio ahora para empezar.

Para obtener más recursos de Mistral en AWS, consulte el Repositorio Mistral-en-AWS GitHub.

Sobre los autores

Niithiyn Vijeaswaran es un arquitecto de soluciones especializado en IA generativa en el equipo de ciencia de modelos de terceros de AWS. Su área de enfoque es la IA generativa y los aceleradores de IA de AWS. Tiene una Licenciatura en Informática y Bioinformática.

Preston Tuggle es un arquitecto senior de soluciones especializado que trabaja en IA generativa.

shane rai es un especialista principal en IA generativa de la Organización Mundial de Especialistas de AWS (WWSO). Trabaja con clientes de todos los sectores para resolver sus necesidades comerciales más apremiantes e innovadoras utilizando la amplia gama de servicios de IA/ML basados en la nube proporcionados por AWS, incluidas ofertas de modelos de proveedores de modelos básicos de primer nivel.

Mistral-NeMo-Instruct-2407 y Mistral-NeMo-Base-2407 ahora están disponibles en SageMaker JumpStart

ByEquipo de 7 minutos

Descripción general de Mistral-NeMo-Instruct-2407 y Mistral-NeMo-Base-2407

Funciones y capacidades clave

Soporte multilingüe

Tekken: tokenización avanzada

Descripción general de SageMaker JumpStart

Requisitos previos

Descubra los modelos Mistral NeMo en SageMaker JumpStart

Implementar el modelo en SageMaker JumpStart

Implementar el modelo con SageMaker Python SDK

Mistral-NeMo-Base-2407

Completar texto

Instrucción Mistral NeMo

Generación de código

Matemáticas y razonamiento avanzados.

Tarea de traducción de idiomas

Limpiar

Conclusión

Sobre los autores

By Equipo de 7 minutos

Related Post

Cómo construir un backend de Document Intelligence con iii usando trabajadores, funciones y activadores cron

El modelo tabular grande NEXUS de Fundamental ya está disponible en Amazon SageMaker JumpStart

NVIDIA lanza Cosmos 3: un modelo básico de mezcla de transformadores de dos torres que unifica el razonamiento físico, la generación mundial y la generación de acción

You missed

Este sistema de agua oculto ayuda a mantener vivo el Gran Cañón, pero el cambio climático podría ponerlo en riesgo

El Parlament pide un “pacto de país” para la educación en Cataluña en medio del conflicto con los profesores

Se niega la residencia a un niño británico nacido en España – The Leader

Daphne Joy usa Diddy Song para provocar videos más atrevidos