Conozca MatFormer: una arquitectura de transformador anidado universal para la implementación flexible de modelos en todas las plataformas

Los modelos de transformadores encuentran aplicaciones en diversas aplicaciones, desde potentes grupos de aceleradores múltiples hasta dispositivos móviles individuales. Los variados requisitos de inferencia en estos entornos hacen que los desarrolladores entrenen modelos fundamentales como PaLM 2, Llama y ViT en diferentes tamaños. Sin embargo, los costos más altos asociados con la capacitación conducen a un conjunto restringido de tamaños de modelos admitidos.

Los modelos fundamentales grandes se utilizan en diferentes situaciones, como dar respuestas rápidas en teléfonos móviles o manejar lotes en GPU de múltiples clústeres para aplicaciones web a gran escala. Cada modelo proporciona una selección de modelos entrenados de forma independiente en diferentes tamaños para adaptarse a diversas circunstancias. Para adaptarse a una amplia gama de aplicaciones, estos tamaños de modelos normalmente se agrupan en una escala logarítmica de forma aproximadamente lineal.

En consecuencia, un grupo de investigadores de Google Research, la Universidad de Texas en Austin, la Universidad de Washington y la Universidad de Harvard han presentado MatFormer, una arquitectura Transformer diseñada explícitamente para la adaptabilidad, como se describe en su último artículo, titulado MatFormer: Nested. Transformador para inferencia elástica. MatFormer facilita la construcción de un modelo integrado que puede generar numerosos submodelos más pequeños sin capacitación adicional.

Han incorporado una subestructura anidada dentro del transformador estándar y han optimizado conjuntamente todas las granularidades para producir un modelo elástico único y universal.

Los investigadores enfatizaron que han producido muchos submodelos precisos sin adquirir costos de capacitación adicionales al mezclar deliberadamente varios niveles de información en varias capas de un modelo MatFormer universal. Cada bloque Feed Forward Network (FFN) en la arquitectura MatFormer está optimizado con una colección de bloques FFN anidados más pequeños. Cada bloque Feed Forward Network (FFN) en la arquitectura MatFormer está optimizado con una colección de bloques FFN anidados más pequeños. A través de este enfoque de capacitación, combinaron y ajustaron la complejidad del modelo en diferentes capas.

La estructura anidada se implementa en las representaciones ocultas del bloque Feed Forward Network (FFN), amplificando las capacidades del modelo al colocar las cabezas de atención en orden de importancia. Se crea una subestructura dentro de las cabezas de atención de mayor a menor. En comparación con el entrenamiento independiente de submodelos equivalentes basados ​​en Transformer, el entrenamiento se acelera en un 15 % ya que las cabezas más significativas se distribuyen entre una mayor cantidad de submodelos. Además, este método se alinea con la curva del submodelo específicamente optimizada y permite la extracción de varios submodelos más pequeños manteniendo la precisión.

Los investigadores descubrieron que podían producir una cantidad considerable de modelos más pequeños y precisos sin mayor optimización eligiendo diferentes niveles de detalle para cada capa de MatFormer.

El equipo estudió la efectividad en una variedad de tipos de modelos (decodificadores y codificadores), modalidades (lenguaje y visión) y escalas (hasta 2,6 mil millones de parámetros). Los investigadores enfatizaron que comparar estos modelos más pequeños con sus contrapartes entrenados de forma independiente revela una pérdida de validación comparable y un rendimiento posterior de un solo disparo. Además, MatFormer exhibe una generalización sólida y funciona bien como codificadores de visión (MatViT) y modelos de lenguaje de solo decodificador (MatLM). En términos de precisión y confiabilidad, escala de manera similar al Transformer tradicional.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.