La arquitectura Transformer ha sido un componente importante en el éxito de los modelos de lenguajes grandes (LLM). Se ha utilizado para casi todos los LLM que se utilizan hoy en día, desde modelos de código abierto como Mistral hasta modelos de código cerrado como ChatGPT.
Para mejorar aún más los LLM, se desarrollan nuevas arquitecturas que podrían incluso superar a la arquitectura Transformer. Uno de estos métodos es Tipo de serpiente venenosaa Modelo de espacio de estados.
Mamba fue propuesta en el periódico. Mamba: modelado de secuencias de tiempo lineal con espacios de estados selectivos. Puede encontrar su implementación oficial y los puntos de control del modelo en su repositorio.
En esta publicación, presentaré el campo de los modelos de espacio de estados en el contexto del modelado del lenguaje y exploraré conceptos uno por uno para desarrollar una intuición sobre el campo. Luego, cubriremos cómo Mamba podría desafiar la arquitectura de Transformers.
Como guía visual, espere muchas visualizaciones para desarrollar una intuición sobre Mamba y los modelos de espacio de estados.
Para ilustrar por qué Mamba es una arquitectura tan interesante, primero hagamos un breve resumen de los transformadores y exploremos una de sus desventajas.
Un transformador ve cualquier entrada textual como un secuencia que consiste en fichas.
Un beneficio importante de Transformers es que cualquier entrada que reciba, puede mirar cualquiera de los tokens anteriores en la secuencia para derivar su representación.
Recuerde que un Transformer consta de dos estructuras, un conjunto de bloques codificadores para representar texto y un conjunto de bloques decodificadores para generar texto. Juntas, estas estructuras se pueden utilizar para varias tareas, incluida la traducción.