Los modelos de lenguaje grande (LLM) y los modelos de visión-lenguaje (VLM) transforman la comprensión del lenguaje natural, la integración multimodal y las tareas complejas de razonamiento. Sin embargo, persiste una limitación crítica: los modelos actuales no pueden manejar de manera eficiente contextos extremadamente grandes. Este desafío ha llevado a los investigadores a explorar nuevos métodos y arquitecturas para mejorar la escalabilidad, la eficiencia y el rendimiento de estos modelos.
Los modelos existentes normalmente admiten longitudes de contexto de token entre 32 000 y 256 000, lo que limita su capacidad para manejar escenarios que requieren ventanas de contexto más grandes, como instrucciones de programación extendidas o tareas de razonamiento de varios pasos. Aumentar el tamaño del contexto es computacionalmente costoso debido a la complejidad cuadrática de los mecanismos de atención tradicionales de softmax. Los investigadores han explorado métodos de atención alternativos, como la atención dispersa, la atención lineal y los modelos de espacio de estados, para abordar estos desafíos, pero la implementación a gran escala sigue siendo limitada.
La atención escasa se centra en entradas relevantes para reducir la sobrecarga computacional, mientras que la atención lineal simplifica la matriz de atención para lograr escalabilidad. Sin embargo, la adopción ha sido lenta debido a problemas de compatibilidad con las arquitecturas existentes y un rendimiento subóptimo en el mundo real. Por ejemplo, los modelos de espacio de estados procesan eficazmente secuencias largas, pero a menudo carecen de la solidez y precisión de los sistemas basados en transformadores en tareas complejas.
Los investigadores de MiniMax han presentado la serie MiniMax-01, que incluye dos variantes para abordar estas limitaciones:
- MiniMax-Texto-01: MiniMax-Text-01 comprende 456 mil millones de parámetros totales, con 45,9 mil millones activados por token. Aprovecha un mecanismo de atención híbrido para un procesamiento eficiente de contexto prolongado. Su ventana de contexto se extiende a 1 millón de tokens durante el entrenamiento y 4 millones de tokens durante la inferencia.
- MiniMax-VL-01: MiniMax-VL-01 integra un módulo liviano Vision Transformer (ViT) y procesa 512 mil millones de tokens de lenguaje de visión a través de un proceso de capacitación de cuatro etapas.
Los modelos emplean un novedoso mecanismo de atención del rayo, que reduce la complejidad computacional del procesamiento de secuencias largas. Además, la integración de una arquitectura mixta de expertos (MoE) mejora la escalabilidad y la eficiencia. Los modelos MiniMax cuentan con 456 mil millones de parámetros, de los cuales 45,9 mil millones se activan para cada token. Esta combinación permite a los modelos procesar ventanas de contexto de hasta 1 millón de tokens durante el entrenamiento y extrapolar a 4 millones de tokens durante la inferencia. Al aprovechar estrategias computacionales avanzadas, la serie MiniMax-01 ofrece capacidades sin precedentes en el procesamiento de contextos largos mientras mantiene el rendimiento a la par con modelos de última generación como GPT-4 y Claude-3.5.
El mecanismo de atención del rayo logra una complejidad computacional lineal, lo que permite que el modelo se escale de manera efectiva. La arquitectura de atención híbrida alterna entre capas de atención Lightning y Softmax, lo que garantiza un equilibrio entre la eficiencia computacional y las capacidades de recuperación. Los modelos también incorporan un algoritmo mejorado de Paralelismo de secuencia de atención lineal (LASP+), que maneja de manera eficiente secuencias extensas. Además, el modelo de lenguaje visual MiniMax-VL-01 integra un módulo transformador de visión liviano, lo que le permite procesar 512 mil millones de tokens de lenguaje visual a través de un proceso de capacitación de cuatro etapas. Estas innovaciones se complementan con núcleos CUDA optimizados y estrategias de paralelización, logrando más del 75 % de utilización de Model Flops en las GPU Nvidia H20.
Las evaluaciones de rendimiento revelan que los modelos MiniMax logran resultados innovadores en varios puntos de referencia:
- Por ejemplo, MiniMax-Text-01 tiene una precisión del 88,5% en MMLU y tiene un rendimiento competitivo frente a modelos como GPT-4.
- El modelo de lenguaje de visión MiniMax-VL-01 supera a muchos de sus pares, con una tasa de precisión del 96,4 % en DocVQA y del 91,7 % en los puntos de referencia AI2D.
Estos modelos también ofrecen una ventana de contexto entre 20 y 32 veces más larga que sus homólogos tradicionales, lo que mejora significativamente su utilidad para aplicaciones de contexto largo.
En conclusión, la serie MiniMax-01, que comprende MiniMax-Text-01 y MiniMax-VL-01, representa un gran avance al abordar la escalabilidad y los desafíos de contexto a largo plazo. Combina técnicas innovadoras como la atención relámpago con una arquitectura híbrida. Al aprovechar marcos computacionales avanzados y estrategias de optimización, los investigadores han introducido una solución que extiende las capacidades contextuales a una cantidad sin precedentes de 4 millones de tokens y iguala o supera el rendimiento de modelos líderes como GPT-4.
Verificar el Papel y Modelos abrazando la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.
🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.