Una guía visual de Mamba y los modelos de espacio de estados

Una alternativa a Transformers para el modelado de lenguajes

La arquitectura Transformer ha sido un componente importante en el éxito de los modelos de lenguajes grandes (LLM). Se ha utilizado para casi todos los LLM que se utilizan hoy en día, desde modelos de código abierto como Mistral hasta modelos de código cerrado como ChatGPT.

Para mejorar aún más los LLM, se desarrollan nuevas arquitecturas que podrían incluso superar a la arquitectura Transformer. Uno de estos métodos es Tipo de serpiente venenosaa Modelo de espacio de estados.

La arquitectura básica de un modelo de espacio de estados.

Mamba fue propuesta en el periódico. Mamba: modelado de secuencias de tiempo lineal con espacios de estados selectivos. Puede encontrar su implementación oficial y los puntos de control del modelo en su repositorio.

En esta publicación, presentaré el campo de los modelos de espacio de estados en el contexto del modelado del lenguaje y exploraré conceptos uno por uno para desarrollar una intuición sobre el campo. Luego, cubriremos cómo Mamba podría desafiar la arquitectura de Transformers.

Como guía visual, espere muchas visualizaciones para desarrollar una intuición sobre Mamba y los modelos de espacio de estados.

Para ilustrar por qué Mamba es una arquitectura tan interesante, primero hagamos un breve resumen de los transformadores y exploremos una de sus desventajas.

Un transformador ve cualquier entrada textual como un secuencia que consiste en fichas.

Un beneficio importante de Transformers es que cualquier entrada que reciba, puede mirar cualquiera de los tokens anteriores en la secuencia para derivar su representación.

Recuerde que un Transformer consta de dos estructuras, un conjunto de bloques codificadores para representar texto y un conjunto de bloques decodificadores para generar texto. Juntas, estas estructuras se pueden utilizar para varias tareas, incluida la traducción.

Una guía visual de Mamba y los modelos de espacio de estados

ByEquipo de 7 minutos

Una alternativa a Transformers para el modelado de lenguajes

By Equipo de 7 minutos

Related Post

OpenClaw lanza aplicaciones de nodo complementario para iOS y Android que conectan un teléfono a una puerta de enlace de agente de IA autohospedada

3 preguntas: más allá de la estética basada en datos | Noticias del MIT

Completé cinco años en consultoría analítica: 5 lecciones que cambiaron mi forma de trabajar

You missed

La cartera del British Business Bank supera las 50 empresas tras un impulso de ampliación de 695 millones de euros

La Guardia Civil de Alicante se refuerza con 186 agentes en formación para el verano – The Leader

Boney Kapoor nombra a Ranbir, Janhvi y Sidharth como el elenco de ensueño para Woh 7 Din Remake

‘Inteligencia Artificial AI’ a sus 25 años: ¿Fue esta fábula futurista el pico de la ciencia ficción de Spielberg?