Investigadores de MBZUAI y CMU presentan Bi-Mamba: una arquitectura Mamba de 1 bit escalable y eficiente diseñada para modelos de lenguaje grandes en múltiples tamaños (parámetros 780M, 1.3B y 2.7B)

La evolución del aprendizaje automático ha traído avances significativos en los modelos de lenguaje, que son fundamentales para tareas como la generación de texto y la respuesta a preguntas. Entre ellos, los transformadores y los modelos de espacio de estados (SSM) son fundamentales, pero su eficiencia al manejar secuencias largas ha planteado desafíos. A medida que aumenta la longitud de la secuencia, los transformadores tradicionales sufren una complejidad cuadrática, lo que genera demandas computacionales y de memoria prohibitivas. Para abordar estos problemas, investigadores y organizaciones han explorado arquitecturas alternativas, como Mamba, un modelo de espacio de estados con complejidad lineal que proporciona escalabilidad y eficiencia para tareas de contexto prolongado.

Los modelos de lenguaje a gran escala a menudo enfrentan desafíos en la gestión de costos computacionales, especialmente cuando escalan hasta miles de millones de parámetros. Por ejemplo, si bien Mamba ofrece ventajas de complejidad lineal, su tamaño cada vez mayor genera un consumo de energía y costos de capacitación significativos, lo que dificulta la implementación. Estas limitaciones se ven exacerbadas por las altas demandas de recursos de modelos como las arquitecturas basadas en GPT, que tradicionalmente se entrenan e infieren con total precisión (por ejemplo, FP16 o BF16). Además, a medida que crece la demanda de una IA eficiente y escalable, la exploración de métodos de cuantificación extremos se ha vuelto fundamental para garantizar una implementación práctica en entornos con recursos limitados.

Los investigadores han explorado técnicas como la poda, la cuantificación de bits bajos y las optimizaciones de la caché de valores clave para mitigar estos desafíos. La cuantificación, que reduce el ancho de bits de los pesos del modelo, ha mostrado resultados prometedores al comprimir los modelos sin una degradación sustancial del rendimiento. Sin embargo, la mayoría de estos esfuerzos se centran en modelos basados en transformadores. Aún es necesario explorar el comportamiento de los SSM, en particular Mamba, bajo una cuantificación extrema, lo que crea una brecha en el desarrollo de modelos de espacio de estados escalables y eficientes para aplicaciones del mundo real.

Investigadores de la Universidad de Inteligencia Artificial Mohamed bin Zayed y la Universidad Carnegie Mellon presentaron bi-mambauna arquitectura Mamba escalable de 1 bit diseñada para escenarios de alta eficiencia y poca memoria. Este enfoque innovador aplica capacitación consciente de la binarización al marco del espacio de estados de Mamba, lo que permite una cuantificación extrema mientras se mantiene el rendimiento competitivo. Bi-Mamba se desarrolló en tamaños de modelo de 780 millones, 1,3 mil millones y 2,7 mil millones de parámetros y se entrenó desde cero utilizando una pérdida de destilación autorregresiva. El modelo utiliza modelos docentes de alta precisión, como LLaMA2-7B, para guiar la capacitación, lo que garantiza un rendimiento sólido.

La arquitectura de Bi-Mamba emplea binarización selectiva de sus módulos lineales mientras conserva otros componentes con total precisión para equilibrar la eficiencia y el rendimiento. Las proyecciones de entrada y salida se binarizan mediante módulos FBI-Linear, que integran factores de escala y desplazamiento que se pueden aprender para una representación óptima del peso. Esto garantiza que los parámetros binarios se alineen estrechamente con sus homólogos de total precisión. El entrenamiento del modelo utilizó 32 GPU NVIDIA A100 para procesar grandes conjuntos de datos, incluidos 1,26 billones de tokens de fuentes como RefinedWeb y StarCoder.

Amplios experimentos demostraron la ventaja competitiva de Bi-Mamba sobre los modelos existentes. En conjuntos de datos como Wiki2, PTB y C4, Bi-Mamba logró puntuaciones de perplejidad de 14,2, 34,4 y 15,0, superando significativamente a alternativas como GPTQ y Bi-LLM, que exhibieron perplejidades hasta 10 veces mayores. Además, Bi-Mamba logró precisiones de disparo cero del 44,5% para el modelo 780M, 49,3% para el modelo 2.7B y 46,7% para la variante 1.3B en tareas posteriores como BoolQ y HellaSwag. Esto demostró su solidez en diversas tareas y conjuntos de datos, manteniendo al mismo tiempo un rendimiento energéticamente eficiente.

Los hallazgos del estudio destacan varias conclusiones clave:

Ganancias de eficiencia: Bi-Mamba logra una compresión de almacenamiento de más del 80 % en comparación con los modelos de precisión total, lo que reduce el tamaño de almacenamiento de 5,03 GB a 0,55 GB para el modelo de 2,7 B.
Consistencia del desempeño: El modelo conserva un rendimiento comparable al de sus homólogos de máxima precisión con requisitos de memoria significativamente reducidos.
Escalabilidad: La arquitectura de Bi-Mamba permite una capacitación efectiva en múltiples tamaños de modelos, con resultados competitivos incluso para las variantes más grandes.
Robustez en la binarización: Al binarizar selectivamente módulos lineales, Bi-Mamba evita la degradación del rendimiento típicamente asociada con métodos de binarización ingenuos.

En conclusión, Bi-Mamba representa un importante paso adelante para abordar el doble desafío de la escalabilidad y la eficiencia en grandes modelos de lenguaje. Al aprovechar la capacitación consciente de la binarización y centrarse en optimizaciones arquitectónicas clave, los investigadores demostraron que los modelos de espacio de estados podían lograr un alto rendimiento en condiciones de cuantificación extrema. Esta innovación mejora la eficiencia energética, reduce el consumo de recursos y sienta las bases para desarrollos futuros en sistemas de IA de bajo bit, abriendo vías para implementar modelos a gran escala en entornos prácticos y con recursos limitados. Los sólidos resultados de Bi-Mamba subrayan su potencial como enfoque transformador para tecnologías de IA más sostenibles y eficientes.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferencia virtual gratuita sobre GenAI con Meta, Mistral, Salesforce, Harvey AI y más. Únase a nosotros el 11 de diciembre en este evento virtual gratuito para aprender lo que se necesita para construir a lo grande con modelos pequeños de pioneros de la IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face y más.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🐝🐝 Lea este informe de investigación de IA de Kili Technology sobre ‘Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming’

Investigadores de MBZUAI y CMU presentan Bi-Mamba: una arquitectura Mamba de 1 bit escalable y eficiente diseñada para modelos de lenguaje grandes en múltiples tamaños (parámetros 780M, 1.3B y 2.7B)

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Google AI lanza diagnóstico automático: un sistema basado en LLM de modelo de lenguaje grande para diagnosticar fallas en las pruebas de integración a escala

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

You missed

Ice Spice reacciona al incidente de McDonald’s con un grito de Wendy’s

New Scientist recomienda el revelador libro de Jamie Bartlett Cómo hablar con la IA

El contrato de 18 millones de dólares de Scottie Pippen fue el peor en la historia de la NBA

Volcada con mosca en plaza pública – Noticias Costa Tropical Gazette