Serie de entrevistas sobre IA n.º 4: Transformadores frente a una mezcla de expertos (MoE)




Pregunta:

Los modelos MoE contienen muchos más parámetros que los Transformers, pero pueden ejecutarse más rápido en la inferencia. ¿Cómo es eso posible?

Diferencia entre transformadores y mezcla de expertos (MoE)

Los modelos Transformers y Mixture of Experts (MoE) comparten la misma arquitectura troncal (capas de autoatención seguidas de capas de retroalimentación), pero difieren fundamentalmente en la forma en que utilizan los parámetros y calculan.

Red de retroalimentación frente a expertos

Transformador: cada bloque contiene una única gran red de avance (FFN). Cada token pasa a través de este FFN, activando todos los parámetros durante la inferencia. MoE: Reemplaza la FFN con múltiples redes de retroalimentación más pequeñas, llamadas expertos. Una red de enrutamiento selecciona solo unos pocos expertos (Top-K) por token, por lo que solo una pequeña fracción del total de parámetros está activa.

Uso de parámetros

Transformador: todos los parámetros en todas las capas se utilizan para cada token → cálculo denso. MoE: tiene más parámetros totales, pero activa solo una pequeña porción por token → cálculo escaso. Ejemplo: Mixtral 8×7B tiene 46,7 mil millones de parámetros totales, pero usa solo ~13 mil millones por token.

Costo de inferencia

Transformador: Alto costo de inferencia debido a la activación completa de los parámetros. Escalar a modelos como GPT-4 o Llama 2 70B requiere un hardware potente. MoE: Menor costo de inferencia porque solo K expertos por capa están activos. Esto hace que los modelos MoE sean más rápidos y económicos de ejecutar, especialmente a gran escala.

Enrutamiento de tokens

Transformador: Sin enrutamiento. Cada token sigue exactamente el mismo camino a través de todas las capas. MoE: un enrutador experto asigna tokens a expertos en función de las puntuaciones de softmax. Diferentes tokens seleccionan diferentes expertos. Diferentes capas pueden activar diferentes expertos, lo que aumenta la especialización y la capacidad del modelo.

Capacidad del modelo

Transformador: para escalar la capacidad, la única opción es agregar más capas o ampliar el FFN; ambos aumentan considerablemente los FLOP. MoE: puede escalar los parámetros totales de forma masiva sin aumentar el cálculo por token. Esto permite “cerebros más grandes con un menor costo de tiempo de ejecución”.

Si bien las arquitecturas MoE ofrecen una capacidad masiva con un menor costo de inferencia, presentan varios desafíos de capacitación. El problema más común es el colapso de expertos, donde el enrutador selecciona repetidamente a los mismos expertos, dejando a otros sin la capacitación adecuada.

El desequilibrio de carga es otro desafío: algunos expertos pueden recibir muchos más tokens que otros, lo que genera un aprendizaje desigual. Para abordar esto, los modelos MoE se basan en técnicas como la inyección de ruido en el enrutamiento, el enmascaramiento Top-K y los límites de capacidad de expertos.

Estos mecanismos garantizan que todos los expertos se mantengan activos y equilibrados, pero también hacen que los sistemas MoE sean más complejos de entrenar en comparación con los Transformers estándar.

Soy graduado en ingeniería civil (2022) de Jamia Millia Islamia, Nueva Delhi, y tengo un gran interés en la ciencia de datos, especialmente las redes neuronales y su aplicación en diversas áreas.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.







Artículo anteriorCómo construir un agente de IA metacognitivo que ajuste dinámicamente su propia profundidad de razonamiento para una resolución eficiente de problemas