Screenshot 2023 09 15 At 10.36.23 Pm.png

Una arquitectura de red neuronal llamada Mezcla de Expertos (MoE) combina las predicciones de varias redes neuronales expertas. Los modelos MoE abordan trabajos complicados donde varias subtareas o elementos del problema requieren conocimientos especializados. Fueron introducidos para fortalecer las representaciones de las redes neuronales y permitirles manejar diversas tareas desafiantes.

Además, una arquitectura de red neuronal conocida como modelos de mezcla de expertos (MoE) escasamente activados amplía la idea de los modelos MoE convencionales al agregar escasez al mecanismo de activación. Estos modelos se crean para aumentar la eficiencia y escalabilidad de los diseños del MoE, permitiéndoles manejar trabajos a gran escala y al mismo tiempo reducir los costos informáticos.

Debido a su capacidad para activar exclusivamente una pequeña parte de los parámetros del modelo para cada token de entrada determinado, pueden desacoplar el tamaño del modelo de la efectividad de la inferencia.

Todavía es difícil equilibrar el rendimiento y la eficiencia cuando se utilizan redes neuronales (NN), especialmente cuando solo hay unos pocos recursos computacionales disponibles. Los modelos de mezcla de expertos escasamente controlados (MoE dispersos), que permiten desacoplar el tamaño del modelo de la eficacia de la inferencia, se han considerado recientemente como una solución potencial.

Los MoE dispersos ofrecen la posibilidad de aumentar las capacidades del modelo y al mismo tiempo minimizar los costos computacionales. Esto los convierte en una opción para la integración con Transformers, la opción arquitectónica predominante para el modelado visual a gran escala.

En consecuencia, un equipo de investigación de Apple introdujo el concepto de MoE de visión móvil dispersa en su artículo titulado Mobile V-MoE: Scaling Down Vision Transformers via Sparse Mixture-of-Experts. Estos V-MoE son un diseño de mezcla de expertos eficiente y compatible con dispositivos móviles que mantiene un rendimiento notable del modelo al tiempo que reduce la escala de los transformadores de visión (ViT).

Los investigadores han enfatizado que han desarrollado un procedimiento de entrenamiento simple pero robusto en el que se evita el desequilibrio de los expertos aprovechando las superclases semánticas para guiar el entrenamiento del enrutador. Utiliza un único enrutador por imagen, a diferencia del enrutamiento por parche. En el enrutamiento tradicional por parche, normalmente se activan más expertos para cada imagen. Sin embargo, el enrutador por imagen reduce la cantidad de expertos activados por imagen.

El equipo de investigación comenzó la fase de formación entrenando un modelo de referencia. Luego, las predicciones del modelo se anotaron en un conjunto de validación retenido del conjunto de datos de entrenamiento para crear una matriz de confusión. Luego, el gráfico de confusión se sometió a un algoritmo de agrupación de gráficos utilizando esta matriz de confusión como base. Como resultado de este proceso se crearon divisiones de superclases.

Dijeron que el modelo presenta resultados empíricos en el punto de referencia de clasificación estándar ImageNet-1k. Entrenaron todos los modelos desde cero en el conjunto de entrenamiento ImageNet-1k de 1,28 millones de imágenes y luego evaluaron su precisión máxima en el conjunto de validación de 50K imágenes.

Los investigadores quieren utilizar el diseño MoE en otros modelos compatibles con dispositivos móviles además de los ViT en el futuro. También pretenden tener en cuenta otras tareas visuales, como la detección de objetos. Además, quieren cuantificar la latencia real en el dispositivo en todos los modelos.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.