Paralelismo de capa: mejora de la eficiencia de inferencia de LLM a través de la ejecución paralela de capas del transformador

Los LLM han demostrado capacidades excepcionales, pero sus demandas computacionales sustanciales plantean desafíos significativos para la implementación a gran escala. Si bien los estudios anteriores indican que las capas intermedias en las redes neuronales profundas pueden reordenarse o eliminarse sin afectar severamente el rendimiento, estas ideas no se han aprovechado sistemáticamente para reducir los costos de inferencia. Dada la rápida expansión de los LLM, que a menudo contienen cientos de miles de millones de parámetros, la optimización de la inferencia es fundamental para mejorar la eficiencia, reducir la latencia y reducir los gastos operativos. Las aplicaciones de alto tráfico que dependen de la inferencia LLM basada en la nube pueden incurrir en costos mensuales en millones, lo que hace que las soluciones de eficiencia sean esenciales. Además, la capacidad de implementar estos modelos en dispositivos limitados por recursos requiere estrategias que mantengan el rendimiento al tiempo que minimiza la sobrecarga computacional. A pesar de las similitudes arquitectónicas entre los transformadores modernos y las redes residuales profundas, donde la profundidad de la capa a veces puede ser redundante, la investigación aún no ha explorado estas redundancias para optimizar completamente la eficiencia de la inferencia.

Existen varios enfoques para mejorar la eficiencia computacional de los LLM, incluida la poda, la cuantización y la paralelización. La poda elimina los parámetros redundantes para introducir escasez, mejorando la utilización de la memoria y la velocidad de procesamiento. Por otro lado, la cuantización reduce la precisión al convertir los cálculos de punto flotante en formatos enteros de menor bits como INT8 o INT4, mejorando la eficiencia del hardware y el ahorro de energía. Además, las técnicas de paralelización, como el tensor y el paralelismo de la tubería, distribuyen cargas de trabajo en múltiples unidades de procesamiento para acelerar la inferencia al abordar la sobrecarga de comunicación. Las innovaciones recientes también han explorado las modificaciones arquitectónicas a nivel de capa, incluida la fusión de capas y la ejecución dinámica recurrente, para agilizar gráficos computacionales. Sin embargo, la investigación aún no se ha centrado en fusionar capas consecutivas a través del paralelismo tensorial, presentando una vía abierta para optimizar aún más la inferencia.

Investigadores de la Universidad de Ginebra, EPFL y Meta Fair proponen un método para reducir la profundidad de las LLM previas al entrenamiento al tiempo que preservan el rendimiento. La modificación del gráfico computacional permite la ejecución paralela de pares de capa agrupados, mejorando la velocidad de inferencia en aproximadamente 1.20 × sin requerir reentrenamiento. Su enfoque mantiene una precisión del 95% -99% entre la perplejidad y los puntos de referencia de aprendizaje en contexto (ICL). Además, el ajuste fino ayuda a recuperar pérdidas menores de rendimiento. Este método mejora significativamente la eficiencia para la implementación de LLM a gran escala, lo que demuestra que las transformaciones estructurales, como la fusión de capas y la reordenamiento, pueden optimizar la carga de trabajo computacional al tiempo que mantienen la efectividad del modelo.

El estudio examina la profundidad efectiva de los LLM mediante la aplicación de transformaciones como barajas, fusiones y podas de podas. Los resultados indican dependencias débiles entre las capas intermedias, lo que permite que ciertas capas se reordenen o sean paralelizadas con una pérdida de perplejidad mínima. Ejecutar capas contiguas en paralelo reduce la profundidad al tiempo que preserva el rendimiento, destacando la independencia de la capa. Además, el paralelismo de capas distribuye los cálculos entre las GPU, optimizando la eficiencia a través del paralelismo tensor. Las modificaciones de la atención y las redes de avance garantizan una ejecución paralela efectiva. Los ajustes a la normalización de la capa ayudan a mantener la estabilidad. Estos hallazgos sugieren que los modelos de transformadores pueden aprovechar el paralelismo para mejorar la eficiencia computacional sin requerir modificaciones arquitectónicas sustanciales.

El estudio evalúa el paralelismo de la capa con respecto a la velocidad de inferencia, la precisión de la ICL y el ajuste fino para la recuperación del rendimiento. Los experimentos usan LLAMA2 7B y LLAMA3.2 3B en GPU duales A100. El paralelismo de la capa se aplica a las capas fusionadas, con el paralelismo tensor en otros lugares. Los resultados muestran que más allá de 14 capas para LLAMA2 7B y 10 para LLAMA3.2 3B, la precisión de ICL disminuye. La velocidad mejora proporcionalmente, alcanzando un impulso de 1.38x en el paralelismo agresivo. Las capas paralelizadas de ajuste fino en los datos de Redpajama restauran significativamente la precisión, mejorando la MMLU del 83.6% al 94.4% mientras se mantiene las ganancias de velocidad, lo que demuestra la viabilidad del paralelismo de la capa con ajustes específicos.

En conclusión, el estudio introduce el paralelismo de la capa (LP), que reestructura el cálculo del transformador mediante la ejecución de pares de capa en paralelo, mejorando la velocidad de inferencia sin capacitación. Aplicado a Llama2 7B y Llama3.2 3B, LP redujo la profundidad del modelo en un 21% y 18%, lo que produce aceleración de 1.29x y 1.22x, respectivamente. El ajuste fino recuperó el 10.8% de la precisión perdida, demostrando su efectividad. Estos hallazgos desafían la noción de que las capas del transformador deben procesar secuencialmente, lo que sugiere que la paralelización selectiva es viable. LP mejora la eficiencia de LLM en la producción, con un trabajo futuro que explora la agrupación óptima de capa, las interacciones con la cuantización y las ideas teóricas más profundas sobre la independencia de las capas y la eficiencia computacional.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.