Un vistazo de Meme al pináculo del progreso de la inteligencia artificial (IA) en una serie de Mamba: LLM Enlightenment

En el dinámico campo de la Inteligencia Artificial (IA), la trayectoria de un modelo fundamental a otro ha representado un cambio de paradigma sorprendente. La creciente serie de modelos, incluidos Mamba, Mamba MOE, MambaByte y los enfoques más recientes como Cascade, Layer-Selective Rank Reduction (LASER) y Additive Quantization for Language Models (AQLM), han revelado nuevos niveles de poder cognitivo. El famoso meme del ‘Gran Cerebro’ ha capturado sucintamente esta progresión y ha ilustrado con humor el ascenso de la competencia ordinaria a la brillantez extraordinaria al profundizar en las complejidades de cada modelo de lenguaje.

Tipo de serpiente venenosa

Mamba es un modelo de secuencia de tiempo lineal que destaca por sus capacidades de inferencia rápida. Los modelos Foundation se basan predominantemente en la arquitectura Transformer debido a su eficaz mecanismo de atención. Sin embargo, Transformers encuentra problemas de eficiencia cuando se trata de secuencias largas. A diferencia de las topologías de transformadores convencionales basadas en la atención, con Mamba, el equipo introdujo modelos de espacio de estados (SSM) estructurados para abordar las ineficiencias del procesamiento en secuencias extendidas.

La característica única de Mamba es su capacidad de razonamiento basado en contenido, lo que le permite difundir o ignorar información basada en el token actual. Mamba demostró una inferencia rápida, escalamiento de longitud de secuencia lineal y un gran rendimiento en modalidades como el lenguaje, el audio y la genómica. Se distingue por su escalabilidad lineal al tiempo que gestiona secuencias largas y sus capacidades de inferencia rápida, lo que le permite alcanzar una tasa de rendimiento cinco veces mayor que los Transformers convencionales.

Mamba MOE

MoE-Mamba se ha construido sobre la base de Mamba y es la versión posterior que utiliza el poder de la Mezcla de Expertos (MoE). Al integrar SSM con MoE, este modelo supera las capacidades de su predecesor y exhibe un mayor rendimiento y eficiencia. Además de mejorar la eficiencia del entrenamiento, la integración de MoE mantiene las mejoras en el rendimiento de inferencia de Mamba con respecto a los modelos Transformer convencionales.

Mamba MOE sirve como vínculo entre los modelos tradicionales y el campo del procesamiento del lenguaje del cerebro grande. Uno de sus principales logros es la eficacia de la formación del MoE-Mamba. Si bien requiere 2,2 veces menos pasos de entrenamiento que Mamba, logra el mismo nivel de rendimiento.

MambaByte MOE

Los modelos de lenguaje sin tokens han representado un cambio significativo en el procesamiento del lenguaje natural (PLN), ya que aprenden directamente de bytes sin procesar, evitando los sesgos inherentes a la tokenización de subpalabras. Sin embargo, esta estrategia tiene un problema ya que el procesamiento a nivel de bytes da como resultado secuencias sustancialmente más largas que el modelado a nivel de token. Este aumento de longitud desafía a los Transformers autorregresivos ordinarios, cuya complejidad cuadrática para la longitud de la secuencia generalmente dificulta el escalamiento efectivo para secuencias más largas.

MambaByte es una solución a este problema, ya que es una versión modificada del modelo de espacio de estados de Mamba que pretende funcionar de forma autorregresiva con secuencias de bytes. Elimina los sesgos de tokenización de subpalabras al operar directamente en bytes sin procesar, lo que marca un paso hacia el modelado de lenguaje sin tokens. Las pruebas comparativas revelaron que MambaByte superó a otros modelos creados para trabajos comparables en términos de rendimiento informático al manejar datos a nivel de bytes.

Ajuste fino de la autorrecompensa

El concepto de modelos lingüísticos autogratificantes se ha introducido con el objetivo de entrenar el propio modelo lingüístico para que produzca incentivos por sí solo. Utilizando una técnica conocida como indicaciones LLM-as-a-Judge, el modelo de lenguaje evalúa y recompensa sus propios resultados por hacer esto. Esta estrategia representa un cambio sustancial respecto de la dependencia de estructuras de recompensa externas y puede resultar en procesos de aprendizaje más flexibles y dinámicos.

Con ajustes de autorrecompensa, el modelo se hace cargo de su propio destino en la búsqueda de agentes sobrehumanos. Después de someterse a un entrenamiento iterativo de DPO (optimización del proceso de decisión), el modelo se vuelve más hábil para obedecer instrucciones y recompensarse a sí mismo con elementos de alta calidad. MambaByte MOE con ajuste fino de autorecompensa representa un paso hacia modelos que mejoran continuamente en ambas direcciones, teniendo en cuenta las recompensas y obedeciendo órdenes.

CASCADA

Se ha introducido una técnica única llamada Dibujo especulativo en cascada (CS Drafting) para mejorar la eficacia de la inferencia del modelo de lenguaje grande (LLM) al abordar las dificultades asociadas con la decodificación especulativa. La decodificación especulativa proporciona resultados preliminares con un modelo borrador más pequeño y más rápido, que se evalúa y mejora mediante un modelo objetivo más grande y preciso.

Aunque este enfoque tiene como objetivo reducir la latencia, presenta ciertas ineficiencias.

En primer lugar, la decodificación especulativa es ineficiente porque se basa en una generación lenta y autorregresiva, que genera tokens de forma secuencial y con frecuencia provoca retrasos. En segundo lugar, independientemente de cómo cada token afecte la calidad general del resultado, esta estrategia permite la misma cantidad de tiempo para generarlos todos, independientemente de su importancia.

CS. La redacción introduce cascadas tanto verticales como horizontales para abordar las ineficiencias en la decodificación especulativa. Mientras que la cascada horizontal maximiza la asignación de tiempo de redacción, la cascada vertical elimina la generación autorregresiva. En comparación con la decodificación especulativa, este nuevo método puede acelerar el procesamiento hasta en un 72% manteniendo la misma distribución de salida.

LASER (Reducción de rango selectiva de capa)

Se ha introducido un enfoque contrario a la intuición denominado LAyer-SElective Rank Reduction (LASER) para mejorar el rendimiento del LLM, que funciona eliminando selectivamente componentes de orden superior de las matrices de peso del modelo. LASER garantiza un rendimiento óptimo al minimizar las ineficiencias de la generación autorregresiva mediante el uso de un modelo preliminar para producir un modelo objetivo más grande.

LASER es una intervención post-entrenamiento que no requiere más información ni escenarios. El principal hallazgo es que el rendimiento del LLM se puede aumentar considerablemente eligiendo componentes específicos decrecientes de las matrices de ponderación, en contraste con la tendencia típica de modelos de ampliación. La generalización de la estrategia se ha demostrado mediante pruebas exhaustivas realizadas en múltiples modelos de lenguaje y conjuntos de datos.

AQLM (cuantización aditiva para modelos de lenguaje)

AQLM introduce técnicas de cuantificación de libros de códigos múltiples (MCQ), profundizando en la compresión LLM severa. Este método, que se basa en la cuantificación aditiva, logra más precisión con recuentos de bits por parámetro muy bajos que cualquier otro método reciente. La cuantificación aditiva es un método sofisticado que combina varios libros de códigos de baja dimensión para representar los parámetros del modelo de manera más efectiva.

En puntos de referencia como WikiText2, AQLM ofrece una compresión sin precedentes manteniendo una gran perplejidad. Esta estrategia superó ampliamente a los métodos anteriores cuando se aplicó a modelos LLAMA 2 de diferentes tamaños, con puntuaciones de perplejidad más bajas que indican un mayor rendimiento.

DROGAS (Muestreo profundo de microfallos aleatorios)

Esta técnica de muestreo se redefine al introducir imprevisibilidad en el razonamiento del modelo, lo que fomenta la originalidad. DRμGS presenta un nuevo método de muestreo al introducir la aleatoriedad en el proceso de pensamiento en lugar de hacerlo después de la generación. Esto permite una variedad de continuaciones plausibles y proporciona adaptabilidad para lograr diferentes resultados. Establece nuevos puntos de referencia en cuanto a eficacia, originalidad y compresión.

Conclusión

En resumen, la progresión del modelado del lenguaje desde Mamba hasta el conjunto definitivo de modelos increíbles es evidencia de la búsqueda inquebrantable de la perfección. Cada uno de los modelos de esta progresión proporciona un conjunto distinto de avances que hacen avanzar el campo. La representación que hace el meme del creciente tamaño del cerebro no es sólo simbólica, sino que también captura el aumento real de la creatividad, la eficiencia y el intelecto inherente a cada nuevo modelo y enfoque.


Este artículo se inspiró en esto. publicación en Reddit. Todo el crédito por esta investigación va a los investigadores de estos proyectos. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.