Nvidia AI presenta el transformador normalizado (nGPT): un transformador basado en hiperesfera que logra un entrenamiento entre 4 y 20 veces más rápido y una estabilidad mejorada para los LLM

El auge de los modelos basados ​​en Transformer ha hecho avanzar significativamente el campo del procesamiento del lenguaje natural. Sin embargo, el entrenamiento de estos modelos suele ser computacionalmente intensivo y requiere recursos y tiempo sustanciales. Esta investigación aborda la cuestión de mejorar la eficiencia del entrenamiento de los modelos Transformer sin comprometer su rendimiento. Específicamente, busca explorar si los beneficios de la normalización, a menudo aplicada como un componente separado, pueden integrarse en toda la arquitectura Transformer de una manera más coherente.

Los investigadores de NVIDIA proponen una arquitectura novedosa llamada Transformador normalizado (nGPT), que incorpora aprendizaje de representación en la hiperesfera. En este enfoque, todos los vectores involucrados en las incrustaciones, MLP, matrices de atención y estados ocultos se normalizan a la norma unitaria. Esta normalización permite que los tokens de entrada se muevan a través de la superficie de una hiperesfera, y cada capa del modelo contribuye incrementalmente a la predicción de salida final. Al conceptualizar todo el proceso de transformación como un movimiento en una hiperesfera, los investigadores pretenden hacer que el proceso de formación sea más rápido y más estable. Según se informa, el modelo nGPT reduce la cantidad de pasos de entrenamiento requeridos en un factor de 4 a 20, dependiendo de la longitud de la secuencia.

La estructura del Transformador Normalizado gira en torno a un proceso de normalización sistemático. Todas las incorporaciones, así como las matrices de atención y MLP, están obligadas a ubicarse en una hiperesfera, lo que garantiza una representación uniforme en todas las capas de la red. Específicamente, las incorporaciones y las salidas del mecanismo de atención y MLP se normalizan, tratando cada operación vectorial como un producto escalar que representa la similitud del coseno. Además, en lugar de utilizar la reducción de peso tradicional y capas de normalización adicionales como LayerNorm o RMSNorm, los autores introducen parámetros de escala que se pueden aprender para controlar el impacto de la normalización. El proceso de normalización y optimización en nGPT está diseñado como una optimización de métrica variable en la hiperesfera, con los pasos de actualización controlados por tasas de aprendizaje propio que se pueden aprender y que ajustan de forma adaptativa las contribuciones de cada capa.

Los resultados de la investigación son convincentes. Los autores realizaron experimentos utilizando el conjunto de datos OpenWebText, entrenando tanto un modelo GPT básico como el nuevo modelo nGPT. Para el mismo presupuesto de capacitación, nGPT demostró una reducción significativa en la pérdida de validación en comparación con GPT, particularmente en contextos de mayor duración. Por ejemplo, con una longitud de contexto de 4k tokens, nGPT logró la misma pérdida de validación que GPT con solo una décima parte de las iteraciones. Los experimentos también confirmaron que nGPT superó consistentemente al GPT de referencia en una variedad de tareas posteriores, proporcionando no solo una convergencia más rápida sino también una generalización mejorada. La introducción del aprendizaje de representación hiperesférica condujo a una mejor separabilidad de incorporación, que se correlacionó con una mayor precisión en las pruebas de referencia.

En conclusión, el Transformador Normalizado (nGPT) presenta un avance significativo en el entrenamiento eficiente de modelos de lenguaje grandes. Al unificar los hallazgos de estudios anteriores sobre normalización e incorporación de representación, los autores crearon un modelo que es más eficiente en términos de recursos computacionales y al mismo tiempo mantiene un alto rendimiento. El enfoque de utilizar la hiperesfera como base para todas las transformaciones permite un entrenamiento más estable y consistente, lo que potencialmente allana el camino para futuras optimizaciones en la arquitectura de los modelos Transformer. Los investigadores sugieren que este método podría extenderse a arquitecturas de codificador-decodificador más complejas y otros marcos de modelos híbridos.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] Aprenda cómo aumentar el rendimiento de inferencia 4 veces y reducir los costos de servicio en un 50 % con Turbo LoRA, FP8 y GPU Autoscaling (promocionado)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.