Este documento de IA de Microsoft presenta Wina: un marco de activación disperso sin capacitación para una eficiente inferencia de modelos de lenguaje grande

Modelos de idiomas grandes (LLM), con miles de millones de parámetros, impulsan muchos servicios impulsados ​​por IA en todas las industrias. Sin embargo, su tamaño masivo y sus arquitecturas complejas hacen que sus costos computacionales durante la inferencia sean un desafío significativo. A medida que estos modelos evolucionan, la optimización del equilibrio entre la eficiencia computacional y la calidad de la salida se ha convertido en un área crucial de investigación.

El desafío central radica en cómo los LLM manejan la inferencia. Cada vez que se procesa una entrada, se activa todo el modelo, que consume amplios recursos computacionales. Esta activación completa es innecesaria para la mayoría de las tareas, ya que solo un pequeño subconjunto de neuronas contribuye de manera significativa a la salida final. Los métodos de activación dispersos existentes intentan abordar esto desactivando selectivamente neuronas menos importantes. Sin embargo, estos enfoques a menudo se centran solo en la magnitud de los estados ocultos al ignorar el papel crítico de las matrices de peso en la propagación de errores a través de la red. Esta supervisión conduce a altos errores de aproximación y deteriora el rendimiento del modelo, particularmente a niveles de escasez más altos.

Las técnicas de activación dispersa han incluido métodos como la mezcla de expertos (MOE) utilizados en modelos como GPT-4 y Mistral, que dependen de capacitación adicional para aprender qué expertos activar para cada entrada. Otros enfoques, como el verde azulado y los gatos, tienen como objetivo reducir el cálculo utilizando el tamaño de las activaciones ocultas para podar las neuronas, pero aún dejan espacio para mejorar. Estos métodos a menudo luchan por equilibrar el escasez y la precisión, ya que pueden desactivar por error neuronas importantes o retener a aquellos con una influencia mínima. Además, requieren ajuste de umbral específico del modelo, lo que los hace menos flexibles en diferentes arquitecturas.

Investigadores de Microsoft, Universidad de Renmin de China, Universidad de Nueva York y la Universidad Tecnológica del Sur de China propusieron un nuevo método llamado WINA (activación de neuronas informadas con peso) para abordar estos problemas. Wina introduce una técnica de activación dispersa sin entrenamiento que utiliza magnitudes de estado ocultas y normas de peso en cuanto a columnas para determinar qué neuronas activar durante la inferencia. Al considerar el impacto combinado de las magnitudes de entrada y la importancia del peso, Wina crea una estrategia de dispersión más efectiva que se adapta a diferentes capas del modelo sin requerir reentrenamiento o ajuste fino.

El método Wina se basa en una idea simple pero poderosa: las neuronas que tienen activaciones fuertes y grandes magnitudes de peso tienen más probabilidades de influir en los cálculos posteriores. Para operacionalizar esto, Wina calcula el producto de elementos de los estados ocultos y las normas de peso, seleccionando los componentes de Top-K basados ​​en esta métrica combinada. Esta estrategia le permite a Wina construir una sub-red escasa que preserva las señales más importantes al ignorar las activaciones redundantes. El método también incluye un paso de transformación del tensor que hace cumplir la ortogonalidad en cuestión de columnas en las matrices de peso, lo que garantiza que los límites de error teórico se traduzcan de manera efectiva al rendimiento del mundo real. Al combinar estos pasos, Wina mantiene un error de aproximación ajustado al tiempo que entrega ahorros computacionales significativos.

El equipo de investigación evaluó a Wina en varios modelos de idiomas grandes, incluidos Qwen-2.5-7b, LLAMA-2-7B, LLAMA-3-8B y PHI-4-14B, en varias tareas y niveles de escasez. Wina superó al verde azulado y a los gatos en todos los modelos probados y la configuración de escasez. Por ejemplo, en Qwen-2.5-7b al 65% de escasez, Wina logró un rendimiento promedio de hasta 2.94% más alto que el verde azulado y 1.41% mejor que la transformación verde azulado. En LLAMA-3-8B, Wina obtuvo ganancias de 1.06% al 50% de escasez y 2.41% al 65% de escasez. Incluso a niveles de escasez altos, Wina retuvo un rendimiento más fuerte en tareas intensivas en razonamiento como GSM8K y ARC Challenge. Wina también entregó ahorros computacionales consistentes, reduciendo las operaciones de punto flotante en hasta un 63.7% en LLAMA-2-7B y 62.7% en PHI-4-14B.

En resumen, Wina ofrece una solución robusta y libre de entrenamiento para la activación escasa en modelos de lenguaje grande al combinar magnitudes de estado oculto con normas de matriz de peso. Este enfoque aborda las limitaciones de los métodos anteriores, como el verde azulado, lo que resulta en errores de aproximación más bajos, mayor precisión y ahorros computacionales significativos. El trabajo del equipo de investigación representa un importante paso adelante en el desarrollo de métodos de inferencia LLM más eficientes que pueden adaptarse a diversos modelos sin requerir capacitación adicional.


Mira el Papel y Página de Github . Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.