Screenshot 2024 03 29 At 6.14.21 Pm.png

En el campo de la Inteligencia Artificial (IA), los perceptrones multicapa (MLP) son la base para muchas tareas de aprendizaje automático (ML), incluida la resolución de ecuaciones diferenciales parciales, la representación de funciones de densidad en campos de radiación neuronal (NeRF) y la simulación de trazado de rayos. utilizando el trazado de rayos neuronales.

Las capas completamente conectadas, en las que cada neurona de una capa está conectada a todas las demás neuronas de la capa superior e inferior, son una característica definitoria de las MLP. En los MLP, la salida de cada neurona es independiente de la salida de sus neuronas cercanas en la misma capa, a diferencia de otras topologías. Debido a esta propiedad, los MLP se pueden utilizar para procesos de fusión completa, lo cual es esencial para algunas cargas de trabajo computacionales.

En una investigación reciente, un equipo de investigadores de Intel Corporation y Ecole Polytechnique se ha centrado en construir eficazmente MLP estrechos en GPU Intel. Los MLP estrechos presentan un número pequeño y fijo de neuronas por capa y una profundidad reducida, es decir, el número de capas. Los MLP estrechos son aproximadores universales que tienen importancia en una amplia gama de aplicaciones a pesar de su estrecho ancho. Sin embargo, su estrecha amplitud limita su rendimiento, lo que lleva a una baja utilización del ancho de banda de la memoria y a una baja intensidad aritmética durante el entrenamiento y la inferencia.

Combinar las capas en un solo núcleo es una solución popular a estos problemas, ya que permite el uso de memorias más rápidas como cachés, memoria compartida y archivos de registro. Este método, llamado «MLP totalmente fusionado», se utilizó anteriormente con CUDA para construir GPU de Nvidia.

El equipo ha compartido que el objetivo de este estudio es crear MLP completamente fusionados con un ancho de capa fijo de 2^i neuronas y profundidad arbitraria utilizando SYCL para GPU Intel (donde i varía de 4 a 7). Estos MLP son aproximadores universales eficaces a pesar del ancho de capa fijo. Utilizando la tecnología XMX en la GPU Max 1550 del centro de datos de Intel, la implementación se basa en las extensiones SYCL de matriz conjunta de Intel.

Los modelos que requieren un alto rendimiento de datos con tamaños de lote de 2^i, donde i es superior a 15, son especialmente adecuados para esta técnica. En comparación con implementaciones CUDA comparables, la versión SYCL del hardware Intel funciona mejor, particularmente para MLP de 64 anchos. Un estudio también ha indicado que este método requiere menos acceso a la memoria global que los anteriores, lo que mejora la aceleración de la inferencia y el rendimiento máximo teórico.

Se han probado puntos de referencia y aplicaciones, incluida la compresión de imágenes, los campos de radiación neuronal (NeRF) y el aprendizaje automático basado en la física, para demostrar mejoras de rendimiento y posibles aplicaciones. El enfoque proporcionado funciona significativamente mejor que las implementaciones disponibles en el mercado, como la versión CUDA PyTorch en la GPU H100 de Nvidia y la extensión Intel para PyTorch (IPEX) en la misma GPU Intel en todas las circunstancias.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

  1. Se presentó la primera implementación de SYCL para perceptrones multicapa totalmente fusionados diseñados para GPU Intel que utilizan instrucciones XMX.
  1. El rendimiento de la implementación se evaluó utilizando un modelo de línea de techo, que muestra un aumento en la intensidad aritmética de hasta 2,15 veces en comparación con una implementación completamente fusionada.
  1. Se han utilizado cuatro aplicaciones de muestra para validar el mayor rendimiento: el punto de referencia de regresión, la compresión de imágenes, los campos de radiación neuronal y las redes neuronales basadas en la física.
  1. La implementación es digna de mención porque puede realizar entrenamiento 1,75 veces más rápido e inferencia 2,84 veces más rápido que otra implementación completamente fusionada. Su eficacia en una variedad de actividades y conjuntos de datos se ha demostrado aún más por la mejora del rendimiento de hasta 30 veces que ofrece con respecto a las versiones de PyTorch disponibles comercialmente.

Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.