Screenshot 2024 03 11 At 11.13.16 Pm.png

Estudios recientes han destacado la eficacia de las capas de espacio de estados selectivos, también conocidas como modelos Mamba, en varios dominios, como el procesamiento de lenguaje e imágenes, imágenes médicas y análisis de datos. Estos modelos ofrecen complejidad lineal durante el entrenamiento e inferencia rápida, lo que aumenta significativamente el rendimiento y permite un manejo eficiente de dependencias de largo alcance. Sin embargo, comprender su dinámica de flujo de información, sus mecanismos de aprendizaje y su interoperabilidad sigue siendo un desafío, lo que limita su aplicabilidad en dominios sensibles que requieren explicabilidad.

Se han desarrollado varios métodos para mejorar la explicabilidad en redes neuronales profundas, particularmente en PNL, visión por computadora y modelos basados ​​en la atención. Los ejemplos incluyen AttentionRollout, que analiza rutas de atención por pares entre capas, combinando puntuaciones LRP con gradientes de atención para la relevancia específica de la clase y tratando las representaciones de tokens de salida como estados en una cadena de Markov, mejoraron las atribuciones al tratar ciertos operadores como constantes.

Investigadores de la Universidad de Tel Aviv han propuesto reformular el cálculo de Mamba para abordar las lagunas en la comprensión del uso de un operador lineal de control de datos. Esto revelaría matrices de atención ocultas dentro de la capa Mamba, permitiendo la aplicación de técnicas de interpretabilidad desde reinos transformadores a modelos Mamba. El método arroja luz sobre la naturaleza fundamental de los modelos Mamba, proporciona herramientas de interpretabilidad basadas en matrices de atención oculta y compara los modelos Mamba con los transformadores.

Los investigadores reformulan las capas selectivas del espacio de estados (S6) como autoatención, permitiendo la extracción de matrices de atención. Estas matrices se aprovechan para desarrollar herramientas independientes de clase y específicas de clase para modelos explicables de IA de Mamba. La formulación implica convertir capas S6 en operadores lineales controlados por datos y simplificar las matrices ocultas para su interpretación. Las herramientas independientes de clase emplean Attention Rollout, mientras que las herramientas específicas de clase adaptan la atribución del transformador, modificándola para utilizar gradientes del mezclador S6 y mecanismos de activación para obtener mejores mapas de relevancia.

Las visualizaciones de matrices de atención muestran similitudes entre los modelos Mamba y Transformer en la captura de dependencias. Las métricas de explicabilidad indican que los modelos Mamba funcionan de manera comparable a los Transformers en las pruebas de perturbación, lo que demuestra sensibilidad a las perturbaciones. Mamba logra una mayor precisión de píxeles y una intersección media sobre unión en las pruebas de segmentación, pero Transformer-Attribution supera consistentemente a Mamba-Attribution. Otros ajustes a los métodos de atribución basados ​​en Mamba pueden mejorar el rendimiento.

En conclusión, los investigadores de la Universidad de Tel Aviv han propuesto un trabajo que establece un vínculo directo entre Mamba y las capas de autoatención, revelando que las capas de Mamba pueden reformularse como una forma implícita de autoatención causal. Este conocimiento permite el desarrollo de técnicas de explicabilidad para los modelos Mamba, mejorando la comprensión de sus representaciones internas. Estas contribuciones proporcionan herramientas valiosas para evaluar el rendimiento, la equidad y la solidez del modelo Mamba y abren vías para tareas posteriores débilmente supervisadas.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….


Muhammad Athar Ganaie, pasante de consultoría en MarktechPost, es un defensor del aprendizaje profundo eficiente, con especial atención en la capacitación dispersa. Cursando un M.Sc. en Ingeniería Eléctrica, con especialización en Ingeniería de Software, combina conocimientos técnicos avanzados con aplicaciones prácticas. Su esfuerzo actual es su tesis sobre «Mejora de la eficiencia en el aprendizaje por refuerzo profundo», que muestra su compromiso de mejorar las capacidades de la IA. El trabajo de Athar se encuentra en la intersección «Capacitación escasa en DNN» y «Aprendizaje por refuerzo profundo».