Screenshot 2024 09 09 At 2.26.26 pm 1123x630.png

Los modelos de inteligencia artificial generativa de última generación y las aplicaciones de computación de alto rendimiento (HPC) están impulsando la necesidad de niveles de computación sin precedentes. Los clientes están ampliando los límites de estas tecnologías para llevar productos y experiencias de mayor fidelidad al mercado en todas las industrias.

El tamaño de los grandes modelos lingüísticos (LLM), medido por la cantidad de parámetros, ha crecido exponencialmente en los últimos años, lo que refleja una tendencia significativa en el campo de la IA. Los tamaños de los modelos han aumentado de miles de millones de parámetros a cientos de miles de millones de parámetros en un lapso de 5 años. A medida que los LLM han crecido, su desempeño en una amplia gama de tareas de procesamiento del lenguaje natural también ha mejorado significativamente, pero el aumento del tamaño de los LLM ha generado importantes desafíos computacionales y de recursos. El entrenamiento y la implementación de estos modelos requieren grandes cantidades de potencia computacional, memoria y almacenamiento.

El tamaño de un LLM tiene un impacto significativo en la elección del cálculo necesario para la inferencia. Los LLM más grandes requieren más memoria de GPU para almacenar los parámetros del modelo y los cálculos intermedios, así como una mayor potencia computacional para realizar las multiplicaciones de matrices y otras operaciones necesarias para la inferencia. Los LLM grandes tardan más en realizar una sola pasada de inferencia debido a esta mayor complejidad computacional. Este mayor requisito de cálculo puede generar una mayor latencia de inferencia, que es un factor crítico para las aplicaciones que requieren respuestas en tiempo real o casi en tiempo real.

Los clientes de HPC muestran tendencias similares. Con la creciente fidelidad de la recopilación de datos de clientes de HPC y los conjuntos de datos alcanzando escalas de exabytes, los clientes buscan formas de acelerar el tiempo de solución en aplicaciones cada vez más complejas.

Para abordar las necesidades de los clientes de alto rendimiento y escalabilidad en aprendizaje profundo, IA generativa y cargas de trabajo de HPC, nos complace anunciar la disponibilidad general de Nube de computación elástica de Amazon (Amazon EC2) Instancias P5e, impulsadas por GPU NVIDIA H200 Tensor Core. AWS es el primer proveedor líder de servicios en la nube que ofrece la GPU H200 en producción. Además, anunciamos que las instancias P5en, una variante optimizada para la red de las instancias P5e, estarán disponibles próximamente.

En esta publicación, analizamos las capacidades principales de estas instancias y los casos de uso para los que son adecuadas, y le mostramos un ejemplo de cómo comenzar a utilizar estas instancias y realizar la implementación de inferencia de los modelos Meta Llama 3.1 70B y 405B en ellas.

Descripción general de las instancias EC2 P5e

Las instancias P5e funcionan con GPU NVIDIA H200 con 1,7 veces más capacidad de memoria de GPU y un ancho de banda de memoria de GPU 1,5 veces más rápido en comparación con las GPU NVIDIA H100 Tensor Core incluidas en las instancias P5.

Las instancias P5e incorporan 8 GPU NVIDIA H200 con 1128 GB de memoria de GPU de alto ancho de banda, procesadores AMD EPYC de tercera generación, 2 TiB de memoria del sistema y 30 TB de almacenamiento NVMe local. Las instancias P5e también proporcionan 3200 Gbps de ancho de banda de red agregado con soporte para GPUDirect RDMA, lo que permite una latencia más baja y un rendimiento de escalamiento eficiente al omitir la CPU para la comunicación entre nodos.

La siguiente tabla resume los detalles de la instancia.

Tamaño de la instancia CPU virtuales Memoria de instancia (TiB) GPU Memoria GPU Ancho de banda de la red (Gbps) GPUDirect RDMA GPU de igual a igual Almacenamiento de instancia (TB) Ancho de banda de EBS (Gbps)
p5e.48xgrande 192 2 8 tarjetas gráficas NVIDIA H200 1128 GB
HBM3e
3200 Gbps EFA Conmutador NVS de 900 GB/s 8 unidades SSD NVMe de 3,84″ 80

Próximamente se lanzarán instancias EC2 P5en

Uno de los obstáculos en la computación acelerada por GPU puede residir en la comunicación entre las CPU y las GPU. La transferencia de datos entre estos dos componentes puede llevar mucho tiempo, especialmente en el caso de grandes conjuntos de datos o cargas de trabajo que requieren intercambios de datos frecuentes. Este desafío podría afectar a una amplia gama de aplicaciones aceleradas por GPU, como el aprendizaje profundo, la computación de alto rendimiento y el procesamiento de datos en tiempo real. La necesidad de mover datos entre la CPU y la GPU puede generar latencia y reducir la eficiencia general. Además, la latencia de la red puede convertirse en un problema para las cargas de trabajo de ML en sistemas distribuidos, porque los datos deben transferirse entre varias máquinas.

Las instancias EC2 P5en, que estarán disponibles próximamente en 2024, pueden ayudar a resolver estos desafíos. Las instancias P5en combinan las GPU NVIDIA H200 con 4El Procesadores escalables Intel Xeon de última generación, que permiten PCIe Gen 5 entre CPU y GPU. Estas instancias proporcionarán hasta cuatro veces el ancho de banda entre CPU y GPU y menor latencia de red, lo que mejorará el rendimiento de la carga de trabajo.

Casos de uso de P5e

Las instancias P5e son ideales para entrenar, ajustar y ejecutar inferencias para LLM cada vez más complejos y modelos de base multimodales (FM) detrás de las aplicaciones de IA generativa más exigentes y con uso intensivo de recursos informáticos, que incluyen respuesta a preguntas, generación de código, generación de video e imágenes, reconocimiento de voz y más.

Los clientes que implementan LLM para inferencia pueden beneficiarse del uso de instancias P5e, que ofrecen varias ventajas clave que las convierten en una excelente opción para estas cargas de trabajo.

En primer lugar, el mayor ancho de banda de memoria de las GPU H200 en las instancias P5e permite que la GPU obtenga y procese datos de la memoria más rápidamente. Esto se traduce en una latencia de inferencia reducida, lo que es fundamental para aplicaciones en tiempo real como los sistemas de IA conversacional donde los usuarios esperan respuestas casi instantáneas. El mayor ancho de banda de memoria también permite un mayor rendimiento, lo que permite que la GPU procese más inferencias por segundo. Los clientes que implementan el modelo Meta Llama 3.1 de 70 mil millones de parámetros en las instancias P5e pueden esperar hasta 1,871 veces mayor rendimiento y hasta un 40%1 menor costo en comparación con el uso de instancias P5 comparables. (1Longitud de secuencia de entrada 121, longitud de secuencia de salida 5000, tamaño de lote 10, marco vLLM)

En segundo lugar, la escala masiva de los LLM modernos, con cientos de miles de millones de parámetros, requiere una inmensa cantidad de memoria para almacenar el modelo y los cálculos intermedios durante la inferencia. En las instancias P5 estándar, esto probablemente requeriría el uso de múltiples instancias para satisfacer los requisitos de memoria. Sin embargo, la capacidad de memoria de GPU 1,76 veces mayor de las instancias P5e le permite escalar utilizando una sola instancia para ajustar todo el modelo. Esto evita la complejidad y la sobrecarga asociadas con los sistemas de inferencia distribuida, como la sincronización de datos, la comunicación y el equilibrio de carga. Los clientes que implementan el modelo Meta Llama 3.1 de 405 mil millones de parámetros en una sola instancia P5e pueden esperar hasta 1,72 veces mayor rendimiento y hasta un 69%2 menor costo en comparación con el uso de dos instancias P5. (2Longitud de secuencia de entrada 121, longitud de secuencia de salida 50, tamaño de lote 10, marco vLLM)

Por último, la mayor memoria de GPU de las instancias P5e también permite el uso de lotes de mayor tamaño durante la inferencia para una mejor utilización de la GPU, lo que da como resultado tiempos de inferencia más rápidos y un mayor rendimiento general. Esta memoria adicional puede ser particularmente beneficiosa para los clientes con requisitos de inferencia de gran volumen.

Al optimizar el rendimiento y el costo de la inferencia, considere ajustar el tamaño del lote, la longitud de la secuencia de entrada/salida y el nivel de cuantificación, ya que estos parámetros pueden tener un impacto sustancial. Experimente con diferentes configuraciones para encontrar el equilibrio óptimo entre rendimiento y costo para su caso de uso específico.

En resumen, la combinación de mayor ancho de banda de memoria, mayor capacidad de memoria de GPU y compatibilidad con lotes de mayor tamaño hacen que las instancias P5e sean una excelente opción para los clientes que implementan cargas de trabajo de inferencia LLM. Estas instancias pueden ofrecer mejoras significativas en el rendimiento, ahorros de costos y simplicidad operativa en comparación con opciones alternativas.

Las instancias P5e también son adecuadas para aplicaciones HPC con uso intensivo de memoria, como simulaciones, descubrimientos farmacéuticos, análisis sísmicos, pronósticos meteorológicos y modelos financieros. Los clientes que utilizan algoritmos de programación dinámica (PD) para aplicaciones como secuenciación genómica o análisis de datos acelerados también pueden beneficiarse aún más de P5e gracias a la compatibilidad con el conjunto de instrucciones DPX.

Comience a utilizar instancias P5e

Al iniciar instancias P5, puede utilizar AMI de aprendizaje profundo de AWS (DLAMI) para respaldar instancias P5. DLAMI proporciona a los profesionales e investigadores de ML la infraestructura y las herramientas para crear rápidamente aplicaciones de ML escalables, seguras y distribuidas en entornos preconfigurados. Puede ejecutar aplicaciones en contenedores en instancias P5 con Contenedores de aprendizaje profundo de AWS utilizando bibliotecas para Servicio de contenedores elásticos de Amazon (Amazon ECS) o Servicio Kubernetes elástico de Amazon (Amazon EKS).

Las instancias P5e ya están disponibles

Las instancias EC2 P5e ahora están disponibles en el este de EE. UU. (Ohio) Región de AWS en los tamaños p5e.48xlarge a través de Bloques de capacidad de Amazon EC2 para MLPara obtener más información, consulte Instancias P5 de Amazon EC2.


Acerca de los autores

Avi Kulkarni es un especialista sénior que se centra en el desarrollo comercial y la comercialización a nivel mundial de cargas de trabajo de ML y HPC para clientes del sector público y comercial. Anteriormente, gestionó asociaciones en AWS y dirigió la gestión de productos para clientes automotrices en Honeywell, abarcando vehículos eléctricos, autónomos y tradicionales.

Karthik Venna es gerente principal de productos en AWS. Lidera el desarrollo de instancias EC2 para una amplia variedad de cargas de trabajo, incluido el aprendizaje profundo y la inteligencia artificial generativa.

Khaled Rawashdeh es gerente sénior de productos en AWS. Define y crea instancias de computación acelerada de Amazon EC2 para las cargas de trabajo de inteligencia artificial y aprendizaje automático más exigentes. Antes de unirse a AWS, trabajó para empresas líderes enfocadas en la creación de software y sistemas de centros de datos para clientes empresariales.

Aman Shanbhag es arquitecto de soluciones especializado asociado en el equipo de marcos de aprendizaje automático de Amazon Web Services, donde ayuda a los clientes y socios a implementar soluciones de inferencia y entrenamiento de aprendizaje automático a gran escala. Antes de unirse a AWS, Aman se graduó en la Universidad Rice con títulos en Ciencias de la Computación, Matemáticas y Emprendimiento.

Pavel Belevich es un científico aplicado sénior del equipo de marcos de aprendizaje automático de Amazon Web Services. Aplica su investigación en el entrenamiento distribuido y la inferencia de modelos grandes a las necesidades reales de los clientes. Antes de unirse a AWS, Pavel trabajó en el equipo PyTorch Distributed en varias técnicas de entrenamiento distribuido, como FSDP y paralelismo de canalización.

Dr. Maxime Hugues es Arquitecto Principal Especialista en Soluciones GenAI para AWS, a la que se incorporó en 2020. Tiene una maestría de la Escuela Nacional de Ingenieros de Francia “ISEN-Toulon”, una maestría de la Universidad de Ciencias y un doctorado en Ciencias de la Computación en 2011 de la Universidad de Lille 1. Sus investigaciones se centraron principalmente en paradigmas de programación, hardware innovador para computadoras extremas y rendimiento de HPC/Machine Learning. Antes de unirse a AWS, trabajó como científico de investigación de HPC y líder tecnológico en TotalEnergies.

Shruti Koparkar es gerente sénior de marketing de productos en AWS. Ayuda a los clientes a explorar, evaluar y adoptar la infraestructura informática acelerada de Amazon EC2 para sus necesidades de aprendizaje automático.