Los investigadores de NVIDIA AI introducen FFN Fusion: una técnica de optimización novedosa que demuestra cómo el cálculo secuencial en los modelos de lenguaje grande LLM puede ser efectivamente en paralelo

Los modelos de idiomas grandes (LLM) se han vuelto vitales en todos los dominios, lo que permite aplicaciones de alto rendimiento, como la generación de lenguaje natural, la investigación científica y los agentes conversacionales. Debajo de estos avances se encuentran la arquitectura del transformador, donde las capas alternativas de mecanismos de atención y las redes de avance (FFN) procesan secuencialmente la entrada tokenizada. Sin embargo, con un aumento en el tamaño y la complejidad, la carga computacional requerida para la inferencia crece sustancialmente, creando un cuello de botella de eficiencia. La inferencia eficiente es ahora una preocupación crítica, con muchos grupos de investigación que se centran en estrategias que pueden reducir el latencia, aumentar el rendimiento y reducir los costos computacionales al tiempo que mantienen o mejoran el rendimiento del modelo.

En el centro de este problema de eficiencia se encuentra la estructura inherentemente secuencial de los transformadores. La salida de cada capa se alimenta a la siguiente, exigiendo un orden estricto y una sincronización, lo cual es especialmente problemático a escala. A medida que los tamaños del modelo se expanden, el costo de la cálculo y la comunicación secuenciales entre las GPU crece, lo que lleva a una eficiencia reducida y un mayor costo de implementación. Este desafío se amplifica en escenarios que requieren una generación rápida y de múltiples token, como asistentes de IA en tiempo real. Reducir esta carga secuencial mientras se mantiene las capacidades del modelo presenta un obstáculo técnico clave. Desbloquear nuevas estrategias de paralelización que preservan la precisión, pero reducen significativamente la profundidad de cálculo es esencial para ampliar la accesibilidad y la escalabilidad de los LLM.

Han surgido varias técnicas para mejorar la eficiencia. La cuantización reduce la precisión de representaciones numéricas para minimizar las necesidades de memoria y cálculo, aunque a menudo arriesga las pérdidas de precisión, especialmente a bajos ancho de bits. La poda elimina los parámetros redundantes y simplifica los modelos, pero potencialmente perjudica la precisión sin cuidado. Los modelos de mezcla de expertos (MOE) activan solo un subconjunto de parámetros por entrada, haciéndolos altamente eficientes para cargas de trabajo específicas. Aún así, pueden tener un rendimiento inferior a los tamaños de lotes intermedios debido a la baja utilización de hardware. Aunque valiosas, estas estrategias tienen compensaciones que limitan su aplicabilidad universal. En consecuencia, el campo busca métodos que ofrecen mejoras de eficiencia amplia con menos compromisos, especialmente para arquitecturas densas que son más simples de entrenar, desplegar y mantener.

Los investigadores de NVIDIA introdujeron una nueva técnica de optimización arquitectónica nombrada FFN FUSIONque aborda el cuello de botella secuencial en los transformadores identificando secuencias FFN que se pueden ejecutar en paralelo. Este enfoque surgió de la observación de que cuando se eliminan las capas de atención utilizando una herramienta de rompecabezas, los modelos a menudo conservan secuencias largas de FFN consecutivos. Estas secuencias muestran una interdependencia mínima y, por lo tanto, pueden procesarse simultáneamente. Al analizar la estructura de LLM como Llama-3.1-405B-Instructo, los investigadores crearon un nuevo modelo llamado Ultra-253B-Base al podar y reestructurar el modelo base a través de FFN Fusion. Este método da como resultado un modelo significativamente más eficiente que mantiene un rendimiento competitivo.

FFN Fusion fusiona múltiples capas FFN consecutivas en un solo FFN más ancho. Este proceso se basa en la equivalencia matemática: al concatenar los pesos de varios FFN, se puede producir un solo módulo que se comporta como la suma de las capas originales pero se puede calcular en paralelo. Por ejemplo, si tres FFN se apilan secuencialmente, cada uno depende de la salida del anterior, su fusión elimina estas dependencias al garantizar que las tres funcionen con la misma entrada y sus salidas se agregan. La base teórica para este método muestra que el FFN fusionado mantiene la misma capacidad de representación. Los investigadores realizaron un análisis de dependencia utilizando la distancia coseno entre salidas de FFN para identificar regiones con baja interdependencia. Estas regiones se consideraron óptimas para la fusión, ya que un cambio mínimo en la dirección de token entre las capas indicó la viabilidad del procesamiento paralelo.

La aplicación de FFN Fusion al modelo LLAMA-405B dio como resultado una base ultra-253b, que entregó ganancias notables en la velocidad y la eficiencia de los recursos. Específicamente, el nuevo modelo logró una mejora de 1.71X en la latencia de inferencia y un costo computacional por tocadido reducido en 35x a un tamaño por lotes de 32. Esta eficiencia no fue a expensas de la capacidad. Ultra-253b-Base obtuvo un 85.17% en MMLU, 72.25% en MMLU-Pro, 84.92% en Arena Dura, 86.58% en Humaneval y 9.19 en MT-Bench. Estos resultados a menudo coincidían o excedían el modelo original 405b-Parameter, a pesar de que Ultra-253B-Base contenía solo 253 mil millones de parámetros. El uso de la memoria también mejoró con una reducción de 2 × en los requisitos de KV-Cache. El proceso de capacitación implicó destilar 54 mil millones de tokens en una ventana de contexto de 8k, seguido de un ajuste escenificado a los contextos de 16k, 32k y 128k. Estos pasos aseguraron que el modelo fusionado mantuvo una alta precisión al tiempo que se beneficiaba del tamaño reducido.

Esta investigación demuestra cómo el rediseño arquitectónico reflexivo puede desbloquear ganancias de eficiencia significativas. Los investigadores mostraron que las capas de FFN en las arquitecturas de transformadores a menudo son más independientes de lo que se suponía anteriormente. Su método para cuantificar la dependencia entre capas y las estructuras de modelos de transformación permitieron una aplicación más amplia en modelos de varios tamaños. La técnica también fue validada en un modelo de parámetro 70b, lo que demuestra la generalización. Otros experimentos indicaron que si bien las capas de FFN a menudo se pueden fusionar con un impacto mínimo, la paralelización de bloqueo completo, incluida la atención, introduce una mayor degradación del rendimiento debido a interdependencias más fuertes.

Varias conclusiones clave de la investigación sobre FFN Fusion:

  • La técnica de fusión FFN reduce el cálculo secuencial en los transformadores al paralelizar las capas FFN de baja dependencia.
  • La fusión se logra reemplazando secuencias de FFN con un solo FFN más ancho usando pesos concatenados.
  • Ultra-253b-Base, derivado de LLAMA-3.1-405B, logra 1.71x inferencia más rápida y 35 veces un costo por token más bajo.
  • Los resultados de referencia incluyen: 85.17% (MMLU), 72.25% (MMLU-Pro), 86.58% (Humaneval), 84.92% (Arena Dura) y 9.19 (MT-Bench).
  • El uso de la memoria se corta a la mitad debido a la optimización de KV-Cache.
  • La fusión FFN es más efectiva a escalas modelo más grandes y funciona bien con técnicas como poda y cuantización.
  • La paralelización completa del bloqueo del transformador muestra potencial, pero requiere más investigación debido a interdependencias más fuertes.
  • Un método sistemático que utiliza la distancia coseno ayuda a identificar qué secuencias FFN son seguras para fusionarse.
  • La técnica se valida en diferentes tamaños de modelo, incluidos 49B, 70B y 253B.
  • Este enfoque establece las bases para diseños LLM más amigables para el hardware y eficiente en el hardware.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarkTechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.