El manejo de eficiencia de contextos largos ha sido un desafío de larga data en el procesamiento del lenguaje natural. A medida que los modelos de lenguaje grande amplían su capacidad para leer, comprender y generar texto, el mecanismo de atención, central a la forma en que procesan la entrada, puede convertirse en un cuello de botella. En una arquitectura de transformador típica, este mecanismo compara cada token con cualquier otro token, lo que resulta en costos computacionales que escalan cuadráticamente con la longitud de la secuencia. Este problema crece más apremiante a medida que aplicamos modelos de idiomas a tareas que les exigen consultar grandes cantidades de información textual: documentos de formato largo, libros de múltiples capítulos, escritos legales o repositorios de código grande. Cuando un modelo debe navegar por decenas o incluso cientos de miles de tokens, el costo de calcular ingenuamente la atención se vuelve prohibitiva.
Los esfuerzos anteriores para abordar este problema a menudo dependen de imponer estructuras fijas o aproximaciones que puedan comprometer la calidad en ciertos escenarios. Por ejemplo, los mecanismos de ventana deslizante limitan las fichas a un vecindario local, lo que puede oscurecer importantes relaciones globales. Mientras tanto, los enfoques que alteran radicalmente la arquitectura fundamental, como reemplazar la atención de Softmax con construcciones completamente nuevas, pueden exigir una reentrenamiento extenso desde cero, lo que dificulta el beneficio de los modelos previamente capacitados existentes. Los investigadores han buscado un método que mantenga los beneficios clave del diseño original del transformador (su adaptabilidad y capacidad para capturar dependencias de amplio alcance, sin incurrir en la inmensa sobrecarga computacional asociada con la atención tradicional completa en secuencias extremadamente largas.
Los investigadores de Moonshot Ai, la Universidad de Tsinghua y la Universidad de Zhejiang introducen la mezcla de atención en el bloque (MOBA), un enfoque innovador que aplica los principios de la mezcla de expertos (MOE) al mecanismo de atención. Al particionar la entrada en “bloques” manejables y usar un sistema de activación capacitable para decidir qué bloques son relevantes para cada token de consulta, MOBA aborda la ineficiencia que surge cuando un modelo tiene que comparar cada token con cada otro token. A diferencia de los enfoques que llaman rígidamente la atención local o con ventanas, MOBA permite que el modelo aprenda dónde concentrarse. Este diseño se guía por el principio de “menos estructura”, lo que significa que la arquitectura no predefine exactamente qué tokens deberían interactuar. En cambio, delega esas decisiones a una red de actividades aprendidas.
Una característica clave de MOBA es su capacidad para funcionar perfectamente con los modelos basados en transformadores existentes. En lugar de descartar la interfaz de autoatensión estándar, MOBA funciona como una forma de “complemento” o sustituto. Mantiene el mismo número de parámetros, por lo que no hincha la arquitectura y preserva el enmascaramiento causal para garantizar la corrección en la generación autorregresiva. En implementaciones prácticas, MOBA se puede alternar entre la atención escasa y plena, lo que permite que el modelo se beneficie de las aceleraciones al abordar las entradas extremadamente largas al tiempo que preserva el retroceso a la atención estándar completa en capas o fases de entrenamiento donde podría ser deseable.
Detalles y beneficios técnicos
MOBA se centra en dividir el contexto en bloques, cada uno de los cuales abarca un rango consecutivo de tokens. El mecanismo de activación calcula una puntuación de “afinidad” entre un token de consulta y cada bloque, generalmente comparando la consulta con una representación agrupada de las claves del bloque. Luego elige los bloques de puntuación superior. Como resultado, solo aquellos tokens en los bloques más relevantes contribuyen a la distribución de atención final. El bloque que contiene la consulta en sí siempre se incluye, asegurando que el contexto local permanezca accesible. Al mismo tiempo, se aplica una máscara causal para que los tokens no atiendan posiciones en el futuro, preservando la propiedad autorregresiva de izquierda a derecha.
Debido a este procedimiento, la matriz de atención de MOBA es significativamente más escasa que en el transformador original. Sin embargo, sigue siendo lo suficientemente flexible como para permitir que consultas atiendan información lejana cuando sea necesario. Por ejemplo, si una pregunta planteada cerca del final de un texto solo puede responderse haciendo referencia a detalles cerca del comienzo, el mecanismo de activación puede aprender a asignar una puntuación alta al bloque anterior relevante. Técnicamente, este método basado en bloques reduce el número de comparaciones de tokens con las escalas subcuadráticas, lo que provoca ganancias de eficiencia que se vuelven especialmente evidentes a medida que las longitudes de contexto aumentan en los cientos de miles o incluso millones de tokens.
Otro aspecto atractivo de MOBA es su compatibilidad con los aceleradores modernos y los núcleos especializados. En particular, los autores combinan MOBA con flashatent, una biblioteca de alto rendimiento para la atención exacta rápida y eficiente en la memoria. Al agrupar cuidadosamente las operaciones de consulta -clave -valor según las cuales se han seleccionado los bloques, pueden optimizar los cálculos. Los autores informan que con un millón de tokens, MOBA puede producir aproximadamente una aceleración de seis veces en comparación con la atención total convencional, subrayando su practicidad en los casos de uso del mundo real.
Resultados e ideas
Según el informe técnico, MOBA demuestra el rendimiento a la par con plena atención en una variedad de tareas, al tiempo que ofrece ahorros computacionales significativos cuando se trata de secuencias largas. Las pruebas sobre los datos de modelado de idiomas muestran que las perplejidades de MOBA permanecen cerca de las de un transformador de atención completa en longitudes de secuencia de 8,192 o 32,768 tokens. Críticamente, a medida que los investigadores extienden gradualmente las longitudes de contexto a 128,000 y más allá, MOBA conserva una sólida comprensión de contexto a largo plazo. Los autores presentan evaluaciones de “token finales”, que se concentran en la capacidad del modelo para predecir tokens cerca del final de un largo aviso, un área que típicamente resalta las debilidades de los métodos que se basan en aproximaciones pesadas. MOBA administra efectivamente estas posiciones finales sin ninguna pérdida drástica en la calidad predictiva.
También exploran la sensibilidad del enfoque para bloquear el tamaño y las estrategias de activación. En algunos experimentos, refinar la granularidad (es decir, usar bloques más pequeños pero seleccionar más de ellos) ayuda al modelo a aproximar más atención. Incluso en la configuración donde MOBA deja de lado grandes porciones del contexto, la activación adaptativa puede identificar los bloques que realmente importan para la consulta. Mientras tanto, un régimen “híbrido” demuestra un enfoque equilibrado: algunas capas continúan usando MOBA para la velocidad, mientras que un número menor de capas vuelve a atención. Este enfoque híbrido puede ser particularmente beneficioso cuando se realiza ajustes finos supervisados, donde ciertas posiciones en la entrada podrían estar enmascaradas del objetivo de entrenamiento. Al preservar toda la atención en algunas capas superiores, el modelo puede retener una amplia cobertura de contexto, beneficiando las tareas que requieren una perspectiva más global.
En general, estos hallazgos sugieren que MOBA es adecuado para tareas que involucran un contexto extenso, como la comprensión de lectura de documentos largos, la finalización del código a gran escala o los sistemas de diálogo múltiples giros donde todo el historial de conversación se vuelve esencial. Sus ganancias de eficiencia práctica y las compensaciones mínimas de rendimiento posicionan a MOBA como un método atractivo para hacer que los modelos de idiomas grandes sean más eficientes a escala.
Conclusión
En conclusión, la mezcla de atención de bloque (MOBA) proporciona una vía hacia un procesamiento de contexto largo más eficiente en modelos de idiomas grandes, sin una revisión extensa de la arquitectura del transformador o una caída en el rendimiento. Al adoptar la mezcla de ideas de expertos dentro del módulo de atención, MOBA ofrece una forma aprendible pero escasa de centrarse en porciones relevantes de insumos muy largos. La adaptabilidad inherente a su diseño, particularmente su conmutación perfecta entre la atención escasa y plena, lo hace especialmente atractivo para las tuberías de entrenamiento continuas o futuras. Los investigadores pueden ajustar cuán agresivamente recortar el patrón de atención, o usar selectivamente toda la atención para las tareas que exigen una cobertura exhaustiva.
Aunque gran parte de la atención a MOBA se centra en los contextos textuales, el mecanismo subyacente también puede ser prometedor para otras modalidades de datos. Donde las longitudes de la secuencia son lo suficientemente grandes como para generar preocupaciones computacionales o de memoria, la noción de asignar consultas para bloquear a los expertos podría aliviar los cuellos de botella al tiempo que preserva la capacidad de manejar dependencias globales esenciales. A medida que las longitudes de secuencia en las aplicaciones de lenguaje continúan creciendo, los enfoques como MOBA pueden desempeñar un papel fundamental en el avance de la escalabilidad y la rentabilidad del modelado del lenguaje neuronal.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.