Investigadores de la Universidad Estatal de San José proponen TempRALM: un modelo de lenguaje aumentado de recuperador con conciencia temporal (Ralm) con pocas extensiones de aprendizaje

Con materiales textuales que comprenden una gran parte de su contenido, la web es un depósito de conocimiento del mundo real en continuo crecimiento. Los cambios en la información requieren la inclusión de nuevos documentos o revisiones de los más antiguos. Esto permite la coexistencia y el eventual crecimiento de numerosas versiones de información en diferentes períodos históricos. Garantizar que las personas puedan obtener siempre la información más actualizada y relevante es un gran problema en la recuperación de información.

Con la llegada de chatGPT, los sistemas de respuesta a preguntas impulsados ​​por grandes modelos de lenguaje (LLM) han ganado popularidad, añadiendo otra capa de dificultad a este problema. La evidencia muestra que los LLM pueden absorber y procesar cantidades masivas de datos a partir de texto. Datos como este suelen extraerse de una imagen estática de muchos documentos en línea que se recuperan instantáneamente. Sin embargo, la información en el mundo real está sujeta a cambios constantes, que a menudo ocurren diariamente, cada hora o incluso en tiempo real.

Un número cada vez mayor de investigadores ha comenzado a considerar los modelos de lenguaje aumentado de recuperación (RALM) como una posible solución a los problemas causados ​​por la información que siempre está cambiando y por la tendencia de los LLM a generar falsos positivos o alucinaciones. A diferencia de los LLM tradicionales, que dependen completamente de la memoria paramétrica, los RALM obtienen su conocimiento de un corpus de documentos externo. Esta base de datos se puede mejorar y actualizar para reflejar las versiones más recientes de los documentos que contiene, como páginas web y artículos de Wikipedia, ya que está estructurada como un índice de documentos (una forma que facilita la recuperación eficiente de documentos). Si bien los RALM se destacan por responder preguntas fácticas, generalmente se basan en un índice de documentos que solo tiene una versión de cada documento. Sin embargo, en numerosos contextos prácticos se añaden constantemente datos nuevos a la base de datos sin borrar ni alterar registros más antiguos, lo que da lugar a numerosas versiones de documentos.

Los estudios han demostrado que incluso en contextos menos complejos y más organizados, los RALM luchan con el tiempo. Como ejemplo, los investigadores demuestran que Atlas, un modelo RALM representativo de última generación con pocas extensiones de aprendizaje, normalmente no logra ofrecer una respuesta significativa sobre el momento de la pregunta cuando se trata de información que está sujeta a cambios frecuentes. como los nombres de los últimos campeones de tenis de Wimbledon.

Un nuevo estudio de la Universidad Estatal de San José presenta una forma nueva, fácil de entender y muy exitosa de obtener documentos correctos en el tiempo en relación con una consulta determinada. Se utiliza para mejorar Atlas. Han ampliado el algoritmo de clasificación y recuperación de documentos del recuperador RALM en su modelo TempRALM para considerar documentos relevantes para cada consulta en términos de semántica y tiempo en lugar de solo similitud semántica.

El modelo Atlas fue el primero en presentar la arquitectura del modelo de lenguaje aumentado de recuperación (RALM), que mejoraron en su estudio agregando aprendizaje de pocas oportunidades. Específicamente, los componentes temporales de una consulta no pueden ser considerados por los métodos RALM actuales (incluido Atlas). Logran este objetivo mejorando Atlas con un nuevo mecanismo de recuperación temporal y probando la eficacia del modelo.

Utilizando sus extensiones temporales, el recuperador TempRALM aumenta la configuración normal de Atlas-large. Específicamente, adapta T5-1.1 de la arquitectura Fusion-in-Decoder con un ajuste de modelado de lenguaje y se basa en una arquitectura de codificador dual basada en el Contriever y un modelo de secuencia a secuencia. Los investigadores utilizaron el mismo entrenamiento previo para el generador y el recuperador que lo hicieron con Atlas.

Experimentaron con diferentes valores en sus hiperparámetros, como la cantidad de pasos de entrenamiento, las tasas de recuperación y aprendizaje del modelo de lenguaje, las temperaturas de muestreo y la cantidad de documentos a recuperar para cada pregunta, antes de decidirse por los parámetros para configurar TempRALM. y Atlas-grande. El equipo demostró que su método supera al modelo Atlas básico hasta en un 74% y utiliza menos recursos computacionales. No es necesario entrenar previamente, recalcular o reemplazar el índice del documento ni agregar ningún otro componente computacionalmente costoso utilizando TempRALM.

Para estudios futuros, el equipo tiene la intención de investigar varias formas de ampliar los hallazgos de este artículo, como investigar la relación entre LLM y el perro perdiguero y probar varias metodologías de aprendizaje para ajustar los parámetros de la función de relevancia temporal. La verificación de hechos, los sistemas de recomendación y los agentes de diálogo con recuperación aumentada son sólo algunas de las diversas aplicaciones que los investigadores han destacado en su artículo para investigar con su método de recuperación temporal.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.