Los modelos de lenguajes grandes (LLM) se basan en arquitecturas de aprendizaje profundo que capturan relaciones lingüísticas complejas dentro de estructuras en capas. Basados ​​principalmente en arquitecturas Transformer, estos modelos se implementan cada vez más en todas las industrias para tareas que requieren comprensión y generación de lenguaje matizado. Sin embargo, las demandas de los modelos Transformer grandes conllevan elevados requisitos computacionales y de memoria. A medida que los modelos crecen hasta alcanzar miles de millones de parámetros, su implementación en hardware estándar se vuelve un desafío debido a las limitaciones de capacidad de memoria y potencia de procesamiento. Para que los LLM sean factibles y accesibles para aplicaciones más amplias, los investigadores están buscando optimizaciones que equilibren el rendimiento del modelo con la eficiencia de los recursos.

Los LLM suelen requerir amplios recursos computacionales y memoria, lo que hace que su implementación sea costosa y difícil de escalar. Una de las cuestiones críticas en esta área es reducir la carga de recursos de los LLM y al mismo tiempo preservar su desempeño. Los investigadores están investigando métodos para minimizar los parámetros del modelo sin afectar la precisión, siendo el intercambio de parámetros un enfoque que se está considerando. Los pesos del modelo se reutilizan en múltiples capas al compartir parámetros, lo que en teoría reduce la huella de memoria del modelo. Sin embargo, este método ha tenido un éxito limitado en los LLM modernos, donde la complejidad de las capas puede hacer que los parámetros compartidos degraden el rendimiento. Por lo tanto, reducir los parámetros de manera efectiva sin pérdida de precisión del modelo se ha convertido en un desafío importante a medida que los modelos se vuelven altamente interdependientes dentro de sus capas.

Los investigadores han explorado técnicas que ya se utilizan en la reducción de parámetros, como la destilación de conocimientos y la poda. La destilación de conocimientos transfiere el rendimiento de un modelo más grande a uno más pequeño, mientras que la poda elimina parámetros menos influyentes para reducir el tamaño del modelo. A pesar de sus ventajas, estas técnicas pueden no lograr la eficiencia deseada en modelos a gran escala, particularmente cuando el rendimiento a escala es esencial. Otro enfoque, la adaptación de rango bajo (LoRA), ajusta la estructura del modelo para lograr resultados similares, pero no siempre produce la eficiencia necesaria para aplicaciones más amplias.

Los investigadores de KAIST AI, Google DeepMind y Google Research presentaron Transformadores recursivos relajados para superar estas limitaciones. Esta arquitectura se basa en los Transformers tradicionales al implementar el uso compartido de parámetros entre capas a través de transformaciones recursivas respaldadas por módulos LoRA. La arquitectura Recursive Transformer funciona reutilizando un bloque único de capas varias veces en un bucle, conservando los beneficios de rendimiento y al mismo tiempo disminuyendo la carga computacional. Los investigadores demostraron que al realizar un bucle en el mismo bloque de capa e inicializarlo a partir de un modelo estándar previamente entrenado, los transformadores recursivos podían reducir los parámetros manteniendo la precisión y optimizando el uso de los recursos del modelo. Esta configuración introduce aún más transformadores recursivos relajados al agregar adaptaciones de bajo rango para relajar las estrictas restricciones de uso compartido de parámetros, lo que permite una mayor flexibilidad y un rendimiento refinado en la estructura compartida.

El diseño del Relaxed Recursive Transformer depende de la integración de módulos LoRA personalizados para cada capa, lo que permite que el modelo funcione con un número reducido de parámetros sin comprometer la precisión. Cada bloque de capa se inicializa utilizando técnicas de descomposición de valores singulares (SVD), que garantizan que las capas del modelo puedan operar de manera efectiva a una escala comprimida. Se ha demostrado que los modelos recursivos como el modelo Gemma 1B, que utiliza este diseño, superan a sus homólogos no recursivos de tamaño similar, como TinyLlama 1.1B y Pythia 1B, al lograr una mayor precisión en tareas de pocos disparos. Esta arquitectura permite además que los transformadores recursivos aprovechen los mecanismos de salida temprana, mejorando el rendimiento de inferencia hasta 3 veces en comparación con los LLM tradicionales debido a su diseño recursivo.

Los resultados reportados en el estudio muestran que los transformadores recursivos logran ganancias notables en eficiencia y rendimiento. Por ejemplo, el modelo recursivo Gemma 1B demostró una ganancia de precisión de 10 puntos porcentuales en comparación con los modelos de tamaño reducido entrenados en el mismo conjunto de datos. Los investigadores informan que al utilizar estrategias de salida temprana, el Transformador recursivo logró mejoras de velocidad de inferencia de casi 3 veces, ya que permite el procesamiento por lotes en profundidad. Además, los modelos recursivos se desempeñaron de manera competitiva con modelos más grandes, alcanzando niveles de rendimiento comparables a los modelos no recursivos previamente entrenados en conjuntos de datos sustancialmente más grandes, y algunos modelos recursivos casi igualan los modelos entrenados en corpus que superan los tres billones de tokens.

Conclusiones clave de la investigación:

  • Ganancias de eficiencia: Los Transformers recursivos lograron mejoras de hasta 3 veces en el rendimiento de inferencia, lo que los hace significativamente más rápidos que los modelos Transformer estándar.
  • Compartir parámetros: El intercambio de parámetros con módulos LoRA permitió que modelos como el Gemma 1B lograran casi diez puntos porcentuales más de precisión que los modelos de tamaño reducido sin perder efectividad.
  • Inicialización mejorada: Se utilizó la inicialización de descomposición de valores singulares (SVD) para mantener el rendimiento con parámetros reducidos, proporcionando un enfoque equilibrado entre estructuras totalmente compartidas y no compartidas.
  • Mantenimiento de precisión: Los transformadores recursivos mantuvieron una alta precisión incluso cuando se entrenaron con 60 mil millones de tokens, logrando un rendimiento competitivo frente a modelos no recursivos entrenados en conjuntos de datos mucho más grandes.
  • Escalabilidad: Los modelos de transformadores recursivos presentan una solución escalable al integrar capas recursivas y estrategias de salida temprana, lo que facilita una implementación más amplia sin exigir recursos computacionales de alto nivel.

En conclusión, los transformadores recursivos relajados ofrecen un enfoque novedoso para la eficiencia de los parámetros en los LLM al aprovechar el uso compartido de capas recursivas respaldadas por módulos LoRA, preservando tanto la eficiencia de la memoria como la efectividad del modelo. Al optimizar las técnicas de intercambio de parámetros con módulos flexibles de bajo rango, el equipo presentó una solución escalable y de alto rendimiento que hace que los modelos de lenguaje a gran escala sean más accesibles y factibles para aplicaciones prácticas. La investigación presenta un camino viable para mejorar la eficiencia de costos y rendimiento en la implementación de LLM, especialmente donde los recursos computacionales son limitados.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.