Hacia modelos de espacio de estados Mamba para imágenes, vídeos y series temporales | por Sascha Kirch | agosto, 2024

Esta es la parte 1 de mi nueva serie de varias partes. 🐍 Hacia los modelos espaciales de estados Mamba para imágenes, vídeos y series temporales.

Es Mamba es todo lo que necesitas? Ciertamente, la gente ha pensado eso durante mucho tiempo sobre la arquitectura Transformer introducida por A. Vaswani et. al. en La atención es todo lo que necesitas En 2017, el Transformer revolucionó una y otra vez el campo del aprendizaje profundo. Su arquitectura de propósito general se puede adaptar fácilmente a diversas modalidades de datos, como texto, imágenes, videos y series temporales, y parece que cuantos más recursos computacionales y datos se le agregan al Transformer, más eficiente se vuelve.

Sin embargo, el mecanismo de atención del Transformer tiene un gran inconveniente: es complejo. O(N²)lo que significa que se escala cuadráticamente con la longitud de la secuencia. Esto implica que cuanto mayor sea la secuencia de entrada, más recursos computacionales necesitará, lo que hace que trabajar con secuencias grandes a menudo sea inviable.

  1. ¿De qué trata esta serie?
  2. ¿Por qué necesitamos un nuevo modelo?
  3. Modelos de espacio de estados estructurados