La escalada de la IA implica un mayor gasto en infraestructura. La investigación masiva y multidisciplinaria ejerce presión económica sobre las instituciones, ya que la informática de alto rendimiento (HPC) cuesta un ojo de la cara. La HPC es financieramente agotadora y tiene un impacto crítico en el consumo de energía y el medio ambiente. Se prevé que para 2030, la IA representará el 2% del consumo mundial de electricidad. Se requieren nuevos enfoques para maximizar la eficiencia computacional y al mismo tiempo reducir las iteraciones hacia la convergencia. La extrapolación de Anderson es una técnica de memoria de baja aceleración que podría utilizarse para lograr el objetivo anterior. Este artículo profundiza en las últimas investigaciones aplicándolas a las GPU para maximizar el retorno de las inversiones computacionales.
Los investigadores de la Universidad de Ciencia y Tecnología Rey Abdullah utilizaron la extrapolación de Anderson sin matriz en las GPU. Mostraron su influencia en los modelos de entrenamiento y los pases hacia adelante (es decir, ejecutar inferencias sobre los modelos). Dicho método aceleró el rendimiento de la IA al reutilizar iteraciones anteriores para evitar cálculos de gradiente innecesarios, obteniendo los beneficios que se esperaban de los métodos de segundo orden. Definamos qué significa Anderson Exploitation para sentar las bases para el resto de este artículo. Es una técnica de mapeo de vector a vector basada en una ventana de iteraciones históricas. Esta técnica se utiliza para acelerar iteraciones de punto fijo no lineales y se usa ampliamente en subdisciplinas de la física, como la teoría cinética, la teoría funcional de la densidad, etc. Anderson Exploitation es adecuado para la paralelización de la memoria, lo que la hace compatible con las GPU. Hay varias bibliotecas de código abierto disponibles que brindan esta funcionalidad, como PETSc, SUNDIALS, etc. Mejora el rendimiento de la GPU al reutilizar datos vectoriales de estado almacenados en caché, lo que promueve menos pasos y más costosos.
Para probar la eficacia de la idea anterior, los autores utilizaron redes neuronales de equilibrio profundo. DEQa son enormes redes neuronales con un número de capas que tienden al infinito. Su arquitectura se aproxima a muchas capas explícitas con una única capa implícita con exponencialmente menos parámetros mediante un paso hacia atrás. Este fenómeno presenta el alcance de las técnicas de mapeo no lineal de vector a vector. Las técnicas de mapeo de vector a vector superan la iteración directa estándar al combinar información de iteraciones anteriores para abarcar un subespacio de búsqueda para extrapolar la siguiente iteración, mejorando las tasas de convergencia a expensas del uso de memoria en cada iteración.
Los resultados experimentales mostraron que la aceleración de Anderson alcanzó mayores precisiones en el entrenamiento y las pruebas en menos tiempo que la iteración directa. Mostró menos fluctuaciones en la precisión, especialmente en los datos de prueba, a diferencia de la rápida fluctuación de la iteración directa, que indicaba un sobreajuste una y otra vez. Anderson hizo así que el entrenamiento fuera más generalizable. Anderson en GPU tuvo un rendimiento mucho mejor que las iteraciones directas estándar y Anderson en CPU. Esto se debe a que las capacidades de procesamiento paralelo de las GPU equilibran el gasto computacional adicional de Anderson. Sin embargo, existe un equilibrio entre precisión y tiempo de cálculo. En este sentido, su iteración contraria y directa mantuvo un tiempo de cálculo más consistente a medida que aumentaba el número de épocas. En el caso de Anderson, un aumento en el tiempo de cálculo con iteraciones sucesivas surgió del proceso de minimización residual durante cada paso de aceleración. Incluso después de esta compensación, Anderson mejoró el rendimiento de DEQ en una fracción del tiempo necesario para que las iteraciones directas se estabilizaran con una precisión comparable.
Conclusión
La aceleración de Anderson mejoró sustancialmente la precisión de los modelos de equilibrio profundo junto con la eficiencia computacional y la capacidad de generalización del modelo. Esta investigación muestra un futuro brillante en la aplicación de técnicas de mapeo de vector a vector a arquitecturas de CPU y GPU. Incluso en lo más mínimo, se podría examinar una mayor aceleración variando estocásticamente la explotación de Anderson.
Mira el Papel.. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel
Adeeba Alam Ansari actualmente está cursando su doble titulación en el Instituto Indio de Tecnología (IIT) Kharagpur, donde obtuvo una licenciatura en Ingeniería Industrial y una maestría en Ingeniería Financiera. Con un gran interés en el aprendizaje automático y la inteligencia artificial, es una lectora ávida y una persona curiosa. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo real.