Screenshot 2023 11 12 At 7.06.37 Pm.png

En el aprendizaje profundo, las redes neuronales Transformer han atraído una atención significativa por su eficacia en diversos dominios, especialmente en el procesamiento del lenguaje natural y aplicaciones emergentes como la visión por computadora, la robótica y la conducción autónoma. Sin embargo, si bien mejora el rendimiento, la escala cada vez mayor de estos modelos genera un aumento sustancial en el costo de cómputo y la latencia de inferencia. El desafío fundamental radica en aprovechar las ventajas de modelos más grandes sin incurrir en cargas computacionales poco prácticas.

El panorama actual de los modelos de aprendizaje profundo, en particular los Transformers, muestra un progreso notable en diversos dominios. Sin embargo, a menudo es necesario mejorar la escalabilidad de estos modelos debido a los crecientes requisitos computacionales. Los esfuerzos anteriores, ejemplificados por modelos de escasa combinación de expertos como Switch Transformer, Expert Choice y V-MoE, se han centrado predominantemente en ampliar de manera eficiente los parámetros de la red, mitigando el aumento de cómputo por entrada. Sin embargo, existe una brecha de investigación sobre la ampliación de la dimensión de representación simbólica en sí. Enter AltUp es un método novedoso introducido para abordar esta brecha.

AltUp se destaca por proporcionar un método para aumentar la representación de tokens sin amplificar la sobrecarga computacional. Este método divide ingeniosamente un vector de representación ampliado en bloques del mismo tamaño, procesando solo un bloque en cada capa. El quid de la eficacia de AltUp radica en su mecanismo de corrección de predicción, que permite la inferencia de resultados para los bloques no procesados. Al mantener la dimensión del modelo y evitar el aumento cuadrático en el cálculo asociado con la expansión directa, AltUp emerge como una solución prometedora a los desafíos computacionales que plantean las redes Transformer más grandes.

La mecánica de AltUp profundiza en las complejidades de la incorporación de tokens y cómo se pueden ampliar sin provocar un aumento en la complejidad computacional. El método implica:

  • Invocando una capa transformadora de 1x de ancho para uno de los bloques.
  • Denominado bloque «activado».
  • Al mismo tiempo, emplea un predictor ligero.

Este predictor calcula una combinación ponderada de todos los bloques de entrada y los valores predichos, junto con el valor calculado del bloque activado, se corrigen mediante un corrector ligero. Este mecanismo de corrección facilita la actualización de bloques inactivados en función de los activados. Es importante destacar que tanto los pasos de predicción como los de corrección implican sumas y multiplicaciones de vectores mínimas, significativamente más rápidas que una capa de transformador convencional.

La evaluación de AltUp en modelos T5 en tareas de lenguaje de referencia demuestra su capacidad constante para superar a los modelos densos con la misma precisión. En particular, un modelo T5 Large aumentado con AltUp logra notables aceleraciones del 27%, 39%, 87% y 29% en los puntos de referencia GLUE, SuperGLUE, SQuAD y Trivia-QA, respectivamente. Las mejoras relativas en el rendimiento de AltUp se vuelven más pronunciadas cuando se aplican a modelos más grandes, lo que subraya su escalabilidad y eficacia mejorada a medida que aumenta el tamaño del modelo.

En conclusión, AltUp surge como una solución notable al desafío de larga data de ampliar eficientemente las redes neuronales Transformer. Su capacidad para aumentar la representación de tokens sin un aumento proporcional en el costo computacional es muy prometedora para diversas aplicaciones. El enfoque innovador de AltUp, caracterizado por su mecanismo de partición y corrección de predicción, ofrece una forma pragmática de aprovechar los beneficios de modelos más grandes sin sucumbir a demandas computacionales poco prácticas.

La extensión de AltUp de los investigadores, conocida como Recycled-AltUp, muestra aún más la adaptabilidad del método propuesto. Recycled-AltUp, al replicar incrustaciones en lugar de ampliar las incrustaciones de tokens iniciales, demuestra mejoras estrictas en el rendimiento previo al entrenamiento sin introducir una desaceleración perceptible. Este enfoque dual, junto con la perfecta integración de AltUp con otras técnicas como MoE, ejemplifica su versatilidad y abre vías para futuras investigaciones en la exploración de la dinámica del entrenamiento y el rendimiento del modelo.

AltUp significa un gran avance en la búsqueda de un escalamiento eficiente de las redes Transformer, presentando una solución convincente para el equilibrio entre el tamaño del modelo y la eficiencia computacional. Como se describe en este artículo, las contribuciones del equipo de investigación marcan un paso significativo hacia hacer que los modelos de transformadores a gran escala sean más accesibles y prácticos para una gran variedad de aplicaciones.


Revisar la Papel y Artículo de Google. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Madhur Garg es pasante de consultoría en MarktechPost. Actualmente está cursando su Licenciatura en Ingeniería Civil y Ambiental en el Instituto Indio de Tecnología (IIT), Patna. Comparte una gran pasión por el aprendizaje automático y disfruta explorando los últimos avances en tecnologías y sus aplicaciones prácticas. Con un gran interés en la inteligencia artificial y sus diversas aplicaciones, Madhur está decidido a contribuir al campo de la ciencia de datos y aprovechar su impacto potencial en diversas industrias.