Screenshot 2024 05 10 At 9.42.39 Am.png

Los modelos de lenguaje grande (LLM) han revolucionado el procesamiento del lenguaje natural, permitiendo avances innovadores en diversas aplicaciones, como la traducción automática, la respuesta a preguntas y la generación de texto. Sin embargo, el entrenamiento de estos modelos plantea desafíos importantes, incluidos altos requisitos de recursos y largos tiempos de entrenamiento debido a la complejidad de los cálculos involucrados.

Investigaciones anteriores han explorado técnicas como el escalado de pérdidas y estrategias de precisión mixta para reducir el uso de memoria y mejorar la eficiencia del entrenamiento para modelos grandes. Sin embargo, estos métodos enfrentaron limitaciones relacionadas con imprecisiones numéricas y rangos de representación restringidos, lo que afectó el rendimiento general del modelo.

Para abordar este problema, investigadores de la Universidad de Cornell y Amazon han presentado COLLAGE, un enfoque novedoso que emplea una representación flotante multicomponente (MCF) para manejar con precisión operaciones con errores numéricos. Esta innovadora estrategia optimiza la eficiencia y el uso de la memoria durante el entrenamiento. Al integrar COLLAGE como complemento con optimizadores como AdamW, se lograron mejoras significativas en el rendimiento del entrenamiento y ahorro de memoria en comparación con los métodos convencionales. Además, COLLAGE introduce la métrica de «calidad de descenso efectiva», que ofrece una evaluación matizada de estrategias de precisión e información sobre la pérdida de información durante el proceso de capacitación.

El avance central de COLLAGE radica en su capacidad para manejar errores numéricos e imprecisión sin necesidad de conversión a formatos de mayor precisión, lo que garantiza cálculos precisos con un uso reducido de memoria y una eficiencia computacional crucial para la formación de LLM. En cuanto al rendimiento, COLLAGE muestra importantes aceleraciones en el rendimiento del entrenamiento, logrando un rendimiento hasta 3,7 veces mejor en un modelo GPT-6.7B. Además, COLLAGE mantiene una precisión del modelo comparable a la de los pesos maestros FP32 mientras utiliza solo almacenamiento de baja precisión, lo que destaca su eficacia para equilibrar la precisión y la eficiencia en la capacitación LLM.

En conclusión, este método innovador presenta una prometedora estrategia de optimización de baja precisión para mejorar la eficiencia del entrenamiento del modelo de lenguaje sin comprometer el rendimiento. Su utilización de optimizaciones MCF contribuye a mejorar la velocidad de ejecución, la utilización optimizada de la memoria y la calidad general del modelo, allanando el camino para metodologías de capacitación LLM más eficientes y escalables. COLLAGE también acelera la capacitación LLM con un uso reducido de memoria sin comprometer el rendimiento del modelo, lo que lo hace más fácil. integrado en los marcos de optimización existentes. Este avance avanza significativamente en el campo de la capacitación en modelos de lenguajes grandes (LLM) al permitir la capacitación eficiente de modelos más grandes y escalables y al mismo tiempo reducir su huella de carbono.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.