Screenshot 2024 08 14 At 2.02.48 Am.png

Los modelos de lenguaje extenso (LLM) han demostrado una notable eficacia a la hora de abordar cuestiones genéricas. Se puede ajustar un LLM utilizando los documentos patentados de la empresa para utilizarlo en las necesidades específicas de la misma. Sin embargo, este proceso requiere un gran esfuerzo computacional y tiene varias limitaciones. El ajuste puede dar lugar a problemas como la maldición de la inversión, en la que se obstaculiza la capacidad del modelo para generalizar nuevos conocimientos.

La generación aumentada de recuperación (RAG) ofrece un método más adaptable y escalable para gestionar colecciones de documentos importantes como alternativa. Un LLM, una base de datos de documentos y un modelo de incrustación comprenden las tres partes principales de RAG. Conserva la información semántica al incrustar segmentos de documentos en una base de datos durante la etapa de preparación fuera de línea.

Sin embargo, a pesar de sus beneficios, la RAG tiene un conjunto único de dificultades, especialmente cuando se trata de artículos de dominio específico. La jerga y las siglas específicas del dominio, que solo se pueden encontrar en artículos patentados, son un problema importante ya que pueden hacer que el LLM no comprenda o tenga alucinaciones. Incluso técnicas como la RAG correctiva y la RAG autónoma sufren cuando las consultas de los usuarios contienen términos técnicos poco claros, lo que puede hacer que la recuperación de documentos pertinentes no sea exitosa.

En una investigación reciente, un equipo de investigadores presentó el marco Golden Retriever, una herramienta creada para explorar y consultar grandes almacenes de conocimiento industrial de manera más efectiva. Golden Retriever presenta una estrategia única que mejora el procedimiento de preguntas y respuestas antes de la recuperación de documentos. La principal innovación de Golden Retriever es su fase de mejora de preguntas basada en la reflexión, que se lleva a cabo antes de cualquier recuperación de documentos.

El primer paso de este procedimiento es encontrar cualquier jerga o acrónimo en la consulta de entrada del usuario. Una vez encontrados estos términos, el marco examina el contexto en el que se emplean para aclarar su significado. Esto es importante porque los modelos de propósito general pueden malinterpretar el lenguaje especializado que se utiliza en los campos técnicos.

Golden Retriever utiliza un enfoque extensivo. Comienza extrayendo todas las siglas y la jerga de la pregunta de entrada y las enumera. Después de eso, el sistema consulta una lista precompilada de contextos pertinentes al dominio para determinar el contexto de la pregunta. Posteriormente, se consulta un diccionario de jerga para recuperar definiciones y descripciones más detalladas de las frases que se han detectado. Al aclarar cualquier ambigüedad y proporcionar un contexto claro, esta mejor comprensión de la pregunta garantiza que el marco RAG seleccionará los documentos que sean más relevantes para la consulta del usuario cuando los reciba.

Se han utilizado tres LLM de código abierto para evaluar Golden Retriever en un conjunto de datos de preguntas y respuestas específico de un dominio, lo que demuestra su eficacia. Según estas evaluaciones, Golden Retriever funciona mejor que las técnicas convencionales y ofrece una opción fiable para integrar y consultar grandes almacenes de conocimiento industrial. Mejora enormemente la precisión y la relevancia de la información recuperada al garantizar que se comprenda el contexto y el significado de la jerga específica del dominio antes de la recuperación de documentos. Esto lo convierte en una herramienta valiosa para organizaciones con bases de conocimiento extensas y especializadas.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

  1. El equipo ha reconocido y abordado los desafíos que plantea el uso de LLM para consultar bases de conocimiento en aplicaciones prácticas, especialmente con respecto a la interpretación del contexto y el manejo de jerga específica del dominio.
  1. Se ha presentado una versión mejorada del marco RAG. Con este método, que incluye una etapa de ampliación de preguntas basada en la reflexión previa a la recuperación de documentos, RAG puede encontrar documentos pertinentes de manera más confiable incluso en situaciones en las que la terminología puede no estar clara o el contexto puede ser inadecuado.
  1. Se han utilizado tres LLM independientes de código abierto para evaluar en profundidad el rendimiento de Golden Retriever. Los experimentos en un conjunto de datos de preguntas y respuestas específico del dominio han demostrado que Golden Retriever es significativamente más preciso y eficaz que los algoritmos de referencia a la hora de extraer información relevante de bibliotecas de conocimiento a gran escala.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí



Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.