Screenshot 2024 05 31 At 10.48.04 Pm.png

Los transformadores son esenciales en el aprendizaje automático moderno, ya que impulsan grandes modelos de lenguaje, procesadores de imágenes y agentes de aprendizaje por refuerzo. Los transformadores universales (UT) son una alternativa prometedora debido al uso compartido de parámetros entre capas, lo que reintroduce la recurrencia similar a RNN. Los UT destacan en tareas de composición, modelado de lenguajes a pequeña escala y traducción debido a una mejor generalización de la composición. Sin embargo, los UT enfrentan problemas de eficiencia ya que el intercambio de parámetros reduce el tamaño del modelo y la compensación ampliando las capas exige recursos computacionales excesivos. Por lo tanto, los UT son menos favorecidos para tareas con muchos parámetros como el modelado de lenguajes modernos. En la corriente principal, no existe ningún trabajo previo que haya logrado desarrollar modelos UT eficientes en computación que produzcan un rendimiento competitivo en comparación con los Transformers estándar en tales tareas.

Investigadores de la Universidad de Stanford, el laboratorio suizo de IA IDSIA, la Universidad de Harvard y KAUST presentan transformadores universales de mezcla de expertos (MoEUT) que abordan el problema de la relación entre parámetros de cálculo de los UT. Los MoEUT utilizan una arquitectura mixta de expertos para lograr eficiencia computacional y de memoria. Los avances recientes de MoE se combinan con dos innovaciones: (1) agrupación de capas, que apila de forma recurrente grupos de capas basadas en MoE, y (2) norma pericapa, que aplica la norma de capa antes de las capas lineales que preceden a las activaciones sigmoideas o softmax. Los MoEUT permiten modelos de lenguaje UT eficientes, superando a los Transformers estándar con menos recursos, como se demuestra en conjuntos de datos como C4, SlimPajama, peS2o y The Stack.

La arquitectura MoEUT integra parámetros de capa compartidos con una combinación de expertos para resolver el problema de la relación parámetro-cómputo. Utilizando avances recientes en MoE para capas de autoatención y feedforward, MoEUT introduce la agrupación de capas y un esquema robusto de normas peri-capa. En los bloques de avance del MoE, los expertos se seleccionan dinámicamente en función de las puntuaciones de entrada, y se aplica la regularización dentro de las secuencias. Las capas de autoatención del MoE utilizan SwitchHead para la selección dinámica de expertos en proyecciones de valor y salida. La agrupación de capas reduce la computación y aumenta la atención. El esquema de norma peri-capa evita problemas de norma de capa estándar, mejorando el flujo de gradiente y la propagación de la señal.

Al realizar experimentos exhaustivos, los investigadores confirmaron la efectividad de MoEUT en la generación de código utilizando el conjunto de datos «The Stack» y en varias tareas posteriores (LAMBADA, BLiMP, CBT, HellaSwag, PIQA, ARC-E), mostrando un rendimiento superior leve pero consistente con respecto a las líneas de base. En comparación con Sparse Universal Transformer (SUT), MoEUT demostró ventajas significativas. Las evaluaciones de los esquemas de normalización de capas mostraron que su esquema de “norma pericapa” funcionó mejor, particularmente para modelos más pequeños, lo que sugiere el potencial de mayores ganancias con un entrenamiento extendido.

Este estudio presenta MoEUT, un modelo de UT eficaz basado en una combinación de expertos que aborda la limitación de la eficiencia de cálculo de parámetros de los UT estándar. Al combinar técnicas avanzadas de MoE con un sólido método de agrupación de capas y un esquema de norma de capas, MoEUT permite entrenar UT competitivos en tareas dominadas por parámetros, como el modelado de lenguaje, con requisitos informáticos significativamente reducidos. Experimentalmente, MoEUT supera las líneas de base densas en los conjuntos de datos C4, SlimPajama, peS2o y The Stack. Los experimentos de disparo cero confirman su eficacia en tareas posteriores, lo que sugiere el potencial del MoEUT para revivir el interés de la investigación en transformadores universales a gran escala.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.


Por automata