Mamba Retriever: un modelo de recuperación de información para utilizar Mamba para una recuperación densa eficaz y eficiente

Los modelos de recuperación densa (DR) son un método avanzado de recuperación de información (IR) que utiliza técnicas de aprendizaje profundo para mapear pasajes y consultas en un espacio de incrustación. El modelo puede determinar las relaciones semánticas entre ellos comparando las incrustaciones de la consulta y los pasajes que utilizan este espacio de incrustación. Los modelos de DR buscan lograr un compromiso entre dos aspectos cruciales: la efectividad, o la precisión y aplicabilidad de la información recuperada, y la eficiencia, o la velocidad a la que el modelo puede procesar y proporcionar datos pertinentes.

Los PLM (modelos de lenguaje preentrenados), especialmente aquellos construidos sobre la arquitectura Transformer, se han convertido en instrumentos eficaces para la codificación de consultas y pasajes en modelos de aprendizaje de refuerzo profundo. Los PLM basados en Transformer son muy buenos para capturar vínculos semánticos y dependencias complicadas en secuencias de texto extensas debido a su mecanismo de autoatención.

Sin embargo, la complejidad computacional de los PLM basados en Transformer es una desventaja significativa. Aunque es fuerte, el costo computacional del mecanismo de autoatención crece cuadráticamente con la longitud de la secuencia de texto. Esto implica que el modelo necesita mucho más tiempo para inferir información pertinente a medida que se expande la longitud del texto a analizar. Cuando se trata de tareas de recuperación de texto largo, tareas en las que los pasajes son extensos y requieren un procesamiento sustancial, esta ineficiencia se vuelve muy problemática.

Investigaciones recientes han creado PLM sin transformadores, que buscan mejorar la velocidad de procesamiento y al mismo tiempo ofrecer una efectividad comparable o incluso mayor para abordar los desafíos de eficiencia. La arquitectura de Mamba se distingue entre ellas. Los PLM basados en MLB han demostrado que pueden ser tan efectivos como los modelos basados en transformadores en tareas de lenguaje generativo, que son tareas que requieren producir texto en función de las entradas.

Los PLM Mamba muestran un escalamiento temporal lineal con respecto a la longitud de la secuencia, en contraste con el escalamiento temporal cuadrático observado en los modelos basados en Transformer. Esto indica que son significativamente más rápidos para tareas de recuperación de texto largo, ya que el tiempo de procesamiento se hace considerablemente más lento a medida que el texto se alarga. En la investigación se ha estudiado la posibilidad de que la arquitectura Mamba sirva como codificador para modelos DR en tareas IR.

En particular, se presenta el Mamba Retriever, un modelo destinado a investigar si Mamba puede funcionar como un codificador que sea eficiente y eficaz. Se han utilizado dos conjuntos de datos importantes para ajustar el Mamba Retriever: el conjunto de datos LoCoV0, que está diseñado para la recuperación de textos largos, y el conjunto de datos de clasificación de pasajes MS MARCO, que se utiliza con frecuencia para evaluar la recuperación de textos cortos.

El equipo ha resumido su principal contribución de la siguiente manera.

El Mamba Retriever se ha creado con el objetivo de maximizar la eficiencia y la eficacia en las operaciones de recuperación de información (IR). La arquitectura de este modelo equilibra tiempos de procesamiento rápidos y una excelente precisión de recuperación.

Se ha estudiado cómo cambia la eficacia del Mamba Retriever con distintos tamaños de modelo. Las pruebas realizadas con los conjuntos de datos de calificación de pasajes de BEIR y MS MARCO mostraron que el Mamba Retriever tiene un rendimiento mejor o incluso mejor que los retrievers basados en transformadores en términos de eficacia. La eficiencia del modelo aumenta con el tamaño del modelo, lo que sugiere que los modelos Mamba más grandes pueden capturar información semántica más compleja.

Se ha estudiado la eficacia de Mamba Retriever, en particular en tareas de recuperación de textos largos. Al utilizar el conjunto de datos LoCoV0, el equipo demostró que, con un ajuste fino, Mamba Retriever puede manejar secuencias de texto más largas que su longitud preentrenada, alcanzando una eficacia igual o mejor que la de los modelos anteriores creados para la recuperación de textos largos.

El equipo estudió la eficiencia de inferencia del Mamba Retriever en diferentes duraciones de pasajes. Según los hallazgos, el Mamba Retriever se destaca en velocidad de inferencia y tiene una ventaja de escala de tiempo lineal, lo que lo hace especialmente adecuado para aplicaciones de recuperación de información de texto largo.

En conclusión, el modelo Mamba Retriever para la recuperación de información es eficiente y exitoso, especialmente cuando se trata de escenarios de recuperación de textos largos. Es una opción viable para una variedad de tareas de inferencia debido a su rápida velocidad de inferencia y alta efectividad, lo que lo distingue de los modelos más convencionales basados en Transformer.

Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí

Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

Mamba Retriever: un modelo de recuperación de información para utilizar Mamba para una recuperación densa eficaz y eficiente

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Parallax: una atención lineal local parametrizada que mantiene Softmax y agrega una rama de corrección de covarianza aprendida

Una implementación del kit de herramientas de gobernanza de agentes de Microsoft para el uso seguro de herramientas de agentes de IA con políticas, aprobaciones, registros de auditoría y controles de riesgos

StepFun lanza el paso 3.7 Flash: un modelo de lenguaje de visión MoE de 198 mil millones para agentes de codificación y flujos de trabajo de búsqueda

You missed

Parallax: una atención lineal local parametrizada que mantiene Softmax y agrega una rama de corrección de covarianza aprendida

80.000 médicos y enfermeras atrapados en la prohibición de inmigración más amplia de Estados Unidos

Foro sobre “Aplicaciones Emergentes de la Ley de Revisión del Congreso”

Un día en el parque