Screenshot 2024 03 10 At 9.43.19 Pm.png

En un estudio reciente, un equipo de investigadores abordó los inconvenientes intrínsecos de los actuales portales de contenido en línea que permiten a los usuarios hacer preguntas para mejorar su comprensión, especialmente en entornos de aprendizaje como las conferencias. Los sistemas de recuperación de información (IR) convencionales son excelentes para responder este tipo de preguntas de los usuarios, pero no son muy buenos para ayudar a los proveedores de contenido, como los profesores, a identificar las partes exactas de su material que suscitaron la pregunta en primer lugar. Esto da lugar a la creación de la nueva tarea de backtracing, que consiste en obtener el segmento de texto que más probablemente sea el origen de la consulta de un usuario.

Para formalizar el trabajo de rastreo se utilizan tres dominios prácticos, cada uno de los cuales aborda diferentes facetas de la mejora de la comunicación y la distribución de contenido. En primer lugar, descubrir la raíz de la incertidumbre de los estudiantes es el objetivo del ámbito de la «conferencia». En segundo lugar, comprender la causa de la curiosidad del lector es el objetivo principal en el área de «artículos periodísticos». Finalmente, determinar el motivo detrás de la reacción de un usuario es el objetivo en el dominio de la «conversación». Estas áreas demuestran la variedad de situaciones en las que el rastreo puede resultar útil para mejorar la generación de contenido y comprender las señales lingüísticas que influyen en las consultas de los usuarios.

Se ha llevado a cabo una evaluación de tiro cero para evaluar la efectividad de varias estrategias de modelado de lenguaje y recuperación de información, como el modelo ChatGPT, la reclasificación, el bicodificador y los algoritmos basados ​​en probabilidad. Es bien sabido que los sistemas tradicionales de recuperación de información pueden responder al contenido explícito de las consultas de los usuarios obteniendo información semánticamente relevante. Sin embargo, con frecuencia pasan por alto el contexto importante que conecta la consulta del usuario con partes particulares del contenido.

Los resultados de la evaluación han demostrado que el rastreo aún tiene un gran potencial de progreso, lo que exige la creación de nuevas estrategias de recuperación. Esto implica que los sistemas existentes no pueden capturar el contexto causalmente importante que vincula ciertas porciones de información con las búsquedas de los usuarios. El estándar establecido por este trabajo actúa como base para mejorar los sistemas de recuperación para el seguimiento en el futuro.

Estos sistemas mejorados podrían identificar con éxito los desencadenantes lingüísticos que afectan las consultas de los usuarios al llenar este vacío y mejorar la generación de contenido, lo que daría como resultado una entrega de contenido más compleja y personalizada. El objetivo final es cerrar la brecha de conocimiento entre las consultas de los usuarios y los segmentos de materiales, promoviendo una comprensión más profunda y procedimientos de comunicación mejorados.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

  1. Se ha presentado una nueva tarea llamada backtracing, que consiste en encontrar la sección de un corpus que probablemente provocó la consulta de un usuario. Para mejorar la calidad y relevancia del contenido, esto satisface las necesidades de los creadores de contenido que desean perfeccionar sus materiales en respuesta a las preguntas de su audiencia.
  1. Se ha creado un punto de referencia que formaliza la importancia de retroceder en tres contextos diferentes: localizar la fuente de la curiosidad del lector en las noticias, localizar el motivo de los malentendidos de los estudiantes en las conferencias y localizar el desencadenante emocional del usuario en las discusiones. Este exhaustivo punto de referencia demuestra cómo se puede aplicar la tarea a una variedad de entornos de interacción de contenido.
  1. El estudio ha evaluado una serie de sistemas de recuperación conocidos, incluidas técnicas basadas en probabilidades que utilizan modelos de lenguaje previamente entrenados y marcos de bicodificación y reclasificación. Examinar la capacidad de estos sistemas para deducir la relación causal entre las búsquedas de los usuarios y los segmentos de contenido es un primer paso fundamental para comprender la utilidad del rastreo.
  1. Cuando se utilizan técnicas de recuperación para la tarea de rastreo, los resultados han demostrado que actualmente existen ciertos límites. Este resultado resalta las dificultades inherentes al rastreo y resalta la necesidad de algoritmos de recuperación que capturen con mayor precisión los vínculos causales entre las consultas y la información.

Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.