Llama 3.3 70B ya disponible en Amazon SageMaker JumpStart

Hoy nos complace anunciar que Llama 3.3 70B de Meta está disponible en Inicio rápido de Amazon SageMaker. Llama 3.3 70B marca un avance emocionante en el desarrollo de modelos de lenguaje grande (LLM), ofreciendo un rendimiento comparable a las versiones más grandes de Llama con menos recursos computacionales.

En esta publicación, exploramos cómo implementar este modelo de manera eficiente en Amazon SageMaker IAutilizando funciones avanzadas de IA de SageMaker para un rendimiento y una gestión de costes óptimos.

Descripción general del modelo Llama 3.3 70B

Llama 3.3 70B representa un avance significativo en la eficiencia del modelo y la optimización del rendimiento. Este nuevo modelo ofrece una calidad de salida comparable a la Llama 3.1 405B y requiere solo una fracción de los recursos computacionales. Según Meta, esta ganancia de eficiencia se traduce en operaciones de inferencia casi cinco veces más rentables, lo que la convierte en una opción atractiva para implementaciones de producción.

La sofisticada arquitectura del modelo se basa en La versión optimizada de Meta del diseño del transformador, presenta un mecanismo de atención mejorado que puede ayudar a reducir sustancialmente los costos de inferencia. Durante su desarrollo, el equipo de ingeniería de Meta entrenó el modelo en un extenso conjunto de datos que comprende aproximadamente 15 billones de tokens, incorporando contenido de origen web y más de 25 millones de ejemplos sintéticos creados específicamente para el desarrollo de LLM. Este enfoque de capacitación integral da como resultado capacidades sólidas de generación y comprensión del modelo en diversas tareas.

Lo que distingue a Llama 3.3 70B es su refinada metodología de entrenamiento. El modelo se sometió a un extenso proceso de ajuste supervisado, complementado con aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Esta estrategia de capacitación de doble enfoque ayuda a alinear más estrechamente los resultados del modelo con las preferencias humanas, manteniendo al mismo tiempo altos estándares de desempeño. En las evaluaciones de referencia frente a su contraparte más grande, Llama 3.3 70B demostró una consistencia notable, quedando por detrás de Llama 3.1 405B en menos del 2% en 6 de 10 puntos de referencia de IA estándar y, de hecho, superándolo en tres categorías. Este perfil de desempeño lo convierte en un candidato ideal para organizaciones que buscan equilibrar las capacidades del modelo con la eficiencia operativa.

La siguiente figura resume los resultados de las pruebas comparativas (fuente).

Comenzando con SageMaker JumpStart

SageMaker JumpStart es un centro de aprendizaje automático (ML) que puede ayudarlo a acelerar su viaje al ML. Con SageMaker JumpStart, puede evaluar, comparar y seleccionar modelos de base (FM) previamente entrenados, incluidos los modelos Llama 3. Estos modelos son totalmente personalizables para su caso de uso con sus datos y puede implementarlos en producción mediante la interfaz de usuario o el SDK.

La implementación de Llama 3.3 70B a través de SageMaker JumpStart ofrece dos enfoques convenientes: usar la interfaz de usuario intuitiva de SageMaker JumpStart o implementar mediante programación a través del SDK de SageMaker Python. Exploremos ambos métodos para ayudarle a elegir el enfoque que mejor se adapte a sus necesidades.

Implemente Llama 3.3 70B a través de la interfaz de usuario JumpStart de SageMaker

Puede acceder a la interfaz de usuario de SageMaker JumpStart a través de Estudio unificado de Amazon SageMaker o Amazon SageMaker Estudio. Para implementar Llama 3.3 70B usando la interfaz de usuario JumpStart de SageMaker, complete los siguientes pasos:

  1. En SageMaker Unified Studio, en el Construir menú, elija Modelos JumpStart.

Alternativamente, en la consola de SageMaker Studio, elija Empezar en el panel de navegación.

  1. Busque Meta Llama 3.3 70B.
  2. Elige el modelo Meta Llama 3.3 70B.
  3. Elegir Desplegar.
  4. Acepte el acuerdo de licencia de usuario final (EULA).
  5. Para tipo de instancia¸ elija una instancia (ml.g5.48xlarge o ml.p4d.24xlarge).
  6. Elegir Desplegar.

Espere hasta que el estado del terminal se muestre como En servicio. Ahora puede ejecutar inferencias utilizando el modelo.

Implemente Llama 3.3 70B utilizando el SDK de Python de SageMaker

Para los equipos que buscan automatizar la implementación o integrarse con canalizaciones MLOps existentes, pueden usar el siguiente código para implementar el modelo usando el SDK de SageMaker Python:

from sagemaker.serve.builder.model_builder import ModelBuilder
from sagemaker.serve.builder.schema_builder import SchemaBuilder
from sagemaker.jumpstart.model import ModelAccessConfig
from sagemaker.session import Session
import logging

sagemaker_session = Session()

artifacts_bucket_name = sagemaker_session.default_bucket()
execution_role_arn = sagemaker_session.get_caller_identity_arn()

js_model_id = "meta-textgeneration-llama-3-3-70b-instruct"

gpu_instance_type = "ml.p4d.24xlarge"

response = "Hello, I'm a language model, and I'm here to help you with your English."

sample_input = {
    "inputs": "Hello, I'm a language model,",
    "parameters": {"max_new_tokens": 128, "top_p": 0.9, "temperature": 0.6},
}

sample_output = [{"generated_text": response}]

schema_builder = SchemaBuilder(sample_input, sample_output)

model_builder = ModelBuilder(
    model=js_model_id,
    schema_builder=schema_builder,
    sagemaker_session=sagemaker_session,
    role_arn=execution_role_arn,
    log_level=logging.ERROR
)

model= model_builder.build()

predictor = model.deploy(model_access_configs={js_model_id:ModelAccessConfig(accept_eula=True)}, accept_eula=True)
predictor.predict(sample_input)

Configurar el escalado automático y reducirlo a cero

Opcionalmente, puede configurar el escalado automático para reducirlo a cero después de la implementación. Para obtener más información, consulte Libere ahorros de costos con la nueva función de reducción a cero en SageMaker Inference.

Optimice la implementación con SageMaker AI

SageMaker AI simplifica la implementación de modelos sofisticados como Llama 3.3 70B, ofreciendo una gama de funciones diseñadas para optimizar tanto el rendimiento como la rentabilidad. Con las capacidades avanzadas de SageMaker AI, las organizaciones pueden implementar y administrar LLM en entornos de producción, aprovechando al máximo la eficiencia de Llama 3.3 70B mientras se benefician del proceso de implementación optimizado y las herramientas de optimización de SageMaker AI. La implementación predeterminada a través de SageMaker JumpStart utiliza una implementación acelerada, que utiliza decodificación especulativa para mejorar el rendimiento. Para obtener más información sobre cómo funciona la decodificación especulativa con SageMaker AI, consulte Amazon SageMaker lanza el kit de herramientas de optimización de inferencia actualizado para IA generativa.

En primer lugar, el Cargador rápido de modelos revoluciona el proceso de inicialización del modelo mediante la implementación de un innovador mecanismo de transmisión de peso. Esta característica cambia fundamentalmente la forma en que se cargan los pesos del modelo en los aceleradores, lo que reduce drásticamente el tiempo necesario para preparar el modelo para la inferencia. En lugar del enfoque tradicional de cargar todo el modelo en la memoria antes de comenzar las operaciones, Fast Model Loader transmite los pesos directamente desde Amazon Simple Storage Service (Amazon S3) al acelerador, lo que permite tiempos de inicio y escalado más rápidos.

Una capacidad de inferencia de SageMaker es Almacenamiento en caché de contenedoresque transforma la forma en que se administran los contenedores modelo durante las operaciones de escalado. Esta característica elimina uno de los principales obstáculos en el escalado de la implementación al almacenar en caché previamente las imágenes del contenedor, lo que elimina la necesidad de realizar descargas que consumen mucho tiempo al agregar nuevas instancias. Para modelos grandes como Llama 3.3 70B, donde las imágenes del contenedor pueden tener un tamaño considerable, esta optimización reduce significativamente la latencia de escalado y mejora la capacidad de respuesta general del sistema.

Otra capacidad clave es Escalar a cero. Introduce una gestión inteligente de recursos que ajusta automáticamente la capacidad informática en función de los patrones de uso reales. Esta característica representa un cambio de paradigma en la optimización de costos para las implementaciones de modelos, lo que permite que los puntos finales se reduzcan por completo durante los períodos de inactividad y, al mismo tiempo, se mantiene la capacidad de escalar rápidamente cuando regresa la demanda. Esta capacidad es particularmente valiosa para organizaciones que ejecutan múltiples modelos o manejan patrones de carga de trabajo variables.

Juntas, estas características crean un poderoso entorno de implementación que maximiza los beneficios de la arquitectura eficiente de Llama 3.3 70B al mismo tiempo que proporciona herramientas sólidas para administrar los costos operativos y el rendimiento.

Conclusión

La combinación de Llama 3.3 70B con las funciones de inferencia avanzadas de SageMaker AI proporciona una solución óptima para implementaciones de producción. Al utilizar las capacidades Fast Model Loader, Container Caching y Scale to Zero, las organizaciones pueden lograr un alto rendimiento y rentabilidad en sus implementaciones de LLM.

Le animamos a que pruebe esta implementación y comparta sus experiencias.


Sobre los autores

marc karp es un arquitecto de aprendizaje automático en el equipo de servicio de Amazon SageMaker. Se centra en ayudar a los clientes a diseñar, implementar y gestionar cargas de trabajo de aprendizaje automático a escala. En su tiempo libre le gusta viajar y explorar nuevos lugares.

Saurabh Trikande es gerente senior de productos para Amazon Bedrock y SageMaker Inference. Le apasiona trabajar con clientes y socios, motivado por el objetivo de democratizar la IA. Se centra en los desafíos principales relacionados con la implementación de aplicaciones complejas de IA, la inferencia con modelos multiinquilino, la optimización de costos y hacer que la implementación de modelos de IA generativa sea más accesible. En su tiempo libre, Saurabh disfruta hacer senderismo, aprender sobre tecnologías innovadoras, seguir TechCrunch y pasar tiempo con su familia.

Melanie LiPhD, es arquitecta sénior de soluciones especializada en IA generativa en AWS con sede en Sydney, Australia, donde se centra en trabajar con los clientes para crear soluciones que aprovechen la IA y las herramientas de aprendizaje automático de última generación. Ha participado activamente en múltiples iniciativas de IA generativa en APJ, aprovechando el poder de los modelos de lenguaje grande (LLM). Antes de unirse a AWS, el Dr. Li ocupó puestos de ciencia de datos en las industrias financiera y minorista.

Adriana Simmons es gerente senior de marketing de productos en AWS.

Lokeshwaran Ravi es ingeniero sénior de compiladores de aprendizaje profundo en AWS y se especializa en optimización de aprendizaje automático, aceleración de modelos y seguridad de IA. Se centra en mejorar la eficiencia, reducir costos y crear ecosistemas seguros para democratizar las tecnologías de IA, haciendo que el aprendizaje automático de vanguardia sea accesible y tenga impacto en todas las industrias.

Yotam Moss es gerente de desarrollo de software para inferencia en AWS AI.