Los modelos de lenguajes grandes (LLM) enfrentan desafíos para capturar dependencias complejas a largo plazo y lograr una paralelización eficiente para la capacitación a gran escala. Los modelos basados en la atención han dominado las arquitecturas LLM debido a su capacidad para abordar estos problemas. Sin embargo, tienen dificultades con la complejidad computacional y la extrapolación a secuencias más largas. Los modelos de espacio de estados (SSM) han surgido como una alternativa prometedora, que ofrece complejidad de cálculo lineal y potencial para una mejor extrapolación. A pesar de estas ventajas, los SSM tienen dificultades con la recuperación de la memoria debido a su naturaleza markoviana y son menos competitivos en tareas relacionadas con la recuperación de información que los modelos basados en la atención.
Los investigadores han intentado combinar modelos de espacio de estados (SSM) y mecanismos de atención para utilizar los puntos fuertes de ambos enfoques. Sin embargo, estos modelos híbridos no han logrado una extrapolación de longitud ilimitada con complejidad de tiempo lineal. Las técnicas de generalización de longitud existentes desarrolladas para mecanismos de atención enfrentan limitaciones como la complejidad del cálculo cuadrático o la capacidad restringida de extrapolación del contexto. A pesar de estos esfuerzos, ninguna solución ha abordado con éxito todos los desafíos simultáneamente.
Investigadores de Microsoft y la Universidad de Illinois en Urbana-Champaign presentes SAMBA, una arquitectura neuronal simple que armoniza las fortalezas tanto del SSM como de los modelos basados en la atención logrando una extrapolación ilimitada de la longitud de la secuencia con una complejidad temporal lineal. La arquitectura de SAMBA entrelaza capas Mamba, SwiGLU y Sliding Window Attention (SWA). Las capas Mamba capturan la semántica dependiente del tiempo y permiten una decodificación eficiente, mientras que SWA modela dependencias complejas no markovianas. Los investigadores han escalado SAMBA a varios tamaños, con el modelo de parámetros más grande de 3.800 millones preentrenado en tokens de 3.2T. Este modelo demuestra un rendimiento impresionante en puntos de referencia como MMLU, HumanEval y GSM8K, superando a otros modelos de lenguaje de código abierto con hasta 8B de parámetros.
La arquitectura de SAMBA combina de forma innovadora capas Mamba, SWA y Perceptrón multicapa (MLP). Las capas Mamba capturan la semántica dependiente del tiempo utilizando espacios de estado selectivos, mientras que las capas SWA abordan las dependencias no markovianas mediante un enfoque de ventana deslizante. Las capas MLP, implementadas como SwiGLU, manejan transformaciones no lineales y recuperación de conocimientos fácticos. Los investigadores exploraron varias estrategias de hibridación, incluidas Samba, Mamba-SWA-MLP y Mamba-MLP, en la escala de parámetros de 1,700 millones. Este enfoque híbrido tiene como objetivo armonizar las distintas funcionalidades de cada tipo de capa, creando una arquitectura eficiente para el modelado de lenguaje con capacidad de extrapolación de longitud ilimitada.
El rendimiento de SAMBA se evaluó en varios tamaños de parámetros (421M, 1.3B, 1.7B y 3.8B) y se comparó con otras arquitecturas. El modelo SAMBA de 3.800 millones, entrenado en tokens de 3.2T, superó líneas de base sólidas como Llama 2, Mistral, Mamba, Gemma y Llama 3 en diversos puntos de referencia. Destacó en tareas como razonamiento de sentido común, comprensión del lenguaje, veracidad, matemáticas y codificación. En particular, SAMBA logró una precisión un 18,1% mayor en GSM8K en comparación con Transformer++. En la escala de 1.700 millones, SAMBA demostró un rendimiento superior en diversas tareas, superando tanto a los modelos basados puramente en la atención como a los basados en SSM. Los resultados resaltan la efectividad de la arquitectura híbrida de SAMBA al combinar las fortalezas de las capas Mamba, SWA y MLP.
SAMBA representa un avance significativo en el modelado del lenguaje, combinando las fortalezas de los mecanismos de atención y los modelos de espacio de estados. Su arquitectura híbrida demuestra un rendimiento superior en varios puntos de referencia, superando a los modelos basados puramente en atención y basados en SSM. La capacidad de SAMBA para manejar de manera eficiente una longitud de contexto ilimitada, junto con sus notables capacidades de extrapolación de memoria, lo hace particularmente adecuado para aplicaciones del mundo real que requieren una comprensión amplia del contexto. El equilibrio óptimo de la arquitectura entre atención y estructuras recurrentes da como resultado un modelo potente y eficiente que traspasa los límites del modelado del lenguaje y ofrece soluciones prometedoras para tareas complejas de procesamiento del lenguaje natural.
Contribución de hormiga al campo de la optimización de la IA.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 44k+ ML
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.