Los modelos de lenguaje grande (LLM) han revolucionado el procesamiento del lenguaje natural (PNL) pero enfrentan desafíos significativos en aplicaciones prácticas debido a sus grandes demandas computacionales. Si bien la escala de estos modelos mejora el rendimiento, crea limitaciones sustanciales de recursos en aplicaciones en tiempo real. Las soluciones actuales como la mezcla de MOE de expertos (MOE) mejoran la eficiencia de entrenamiento a través de la activación selectiva de los parámetros, pero sufren tiempos de inferencia más lentos debido a los mayores requisitos de acceso a la memoria. Otra solución, la memoria clave del producto (PKM) mantiene un acceso de memoria consistente con menos incrustaciones de valor, pero ofrece un rendimiento deficiente en comparación con MOE. Los modelos MOE, a pesar de tener 12 veces más parámetros que los modelos densos, operan de 2 a 6 veces más lento durante la inferencia.
Han surgido varios enfoques para abordar los desafíos computacionales en LLM. Los investigadores se han centrado en mejorar las funciones de activación de Moe a través de mecanismos mejorados de elección de tokens y estrategias de selección de expertos para combatir el desequilibrio experto. Los desarrollos recientes implican cortar expertos en segmentos más pequeños mientras se activan múltiples expertos por token. PKM representa otro enfoque, implementando la configuración experta más pequeña posible, con mejoras posteriores que incluyen operación paralela con MLP y métodos de activación de valor modificados. Por último, se han explorado técnicas de descomposición del tensor para descomponer grandes tensores en componentes más pequeños, con cuantificación de productos que habilitan la reconstrucción del vector utilizando menos subvectores para reducir los parámetros del modelo.
Un equipo del modelo de terminación de semillas en Bytedance ha propuesto Ultramem, una arquitectura novedosa que revoluciona la implementación de capas de memoria a gran escala en modelos de lenguaje. Se basa en la base de PKM al introducir capas de memoria ultra-espada que mejoran drásticamente la eficiencia computacional y reducen la latencia de inferencia. Ultramem logra un rendimiento superior en comparación con los modelos PKM y MOE a escalas equivalentes, lo que lo hace particularmente adecuado para entornos con recursos limitados. Ultramem demuestra capacidades de escala notables, superando a MOE a una velocidad de inferencia hasta 6 veces bajo tamaños de lotes comunes, al tiempo que mantiene la eficiencia computacional comparable a los modelos densos.
Ultramem adopta una arquitectura del transformador previo a la layernidad con modificaciones significativas para abordar las limitaciones de las estructuras tradicionales de PKM. La arquitectura distribuye múltiples capas de memoria más pequeñas a intervalos fijos en las capas del transformador, reemplazando la sola capa de memoria grande utilizada en PKM. Esta distribución aborda la dificultad para encontrar valores correctos cuando aumenta el tamaño del valor y el cálculo desequilibrado en múltiples GPU durante el entrenamiento a gran escala. El diseño también aborda el sesgo inherente en la descomposición clave del producto, donde la recuperación tradicional de Top-K está limitada por las posiciones de fila y columna. Además, la estructura de la capa de omisión optimiza las operaciones unidas a la memoria durante el entrenamiento y mejora la eficiencia computacional general.
La evaluación del rendimiento de Ultramem en varios tamaños de modelo muestra resultados impresionantes contra las arquitecturas existentes. Con parámetros equivalentes y costos de cálculo, Ultramem supera a los modelos PKM y MOE a medida que aumenta la capacidad. El modelo Ultramem con 12 veces los parámetros coincide con el rendimiento de un modelo denso de 6.5b mientras se mantiene la eficiencia computacional de un modelo denso de 1.6b. Los experimentos de escala revelan que Ultramem mantiene tiempos de inferencia estables incluso con un crecimiento exponencial de los parámetros, siempre que los parámetros activados sigan siendo constantes. Esto contrasta fuertemente con los modelos MOE, que muestran una degradación significativa del rendimiento, destacando la eficiencia superior de Ultramem en la gestión de parámetros dispersos.
Este artículo presenta ultramem que representa un avance significativo en la arquitectura LLM, que muestra características de rendimiento superiores en comparación con los enfoques existentes. Logra hasta seis veces las velocidades de procesamiento más rápidas que los modelos MOE mientras se mantiene requisitos mínimos de acceso a la memoria. Ultramem exhibe capacidades de escala mejoradas a medida que aumenta la capacidad del modelo, superando a los modelos MOE con parámetros equivalentes y recursos computacionales. Estos resultados impresionantes establecen Ultramem como una base prometedora para desarrollar modelos de lenguaje más eficientes y escalables, revolucionando el campo de la PNL al permitir la creación de modelos más poderosos al tiempo que mantiene los requisitos prácticos de recursos.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
