El modelo de lenguaje aumentado por recuperación (RALM) mejora los modelos de lenguaje ampliado por recuperación al integrar el conocimiento externo durante la inferencia, lo que reduce las imprecisiones factuales. A pesar de esto, los RALM enfrentan desafíos en cuanto a confiabilidad y trazabilidad. La recuperación ruidosa puede llevar a respuestas inútiles o incorrectas, y la falta de citas adecuadas complica la verificación de los resultados del modelo. Los esfuerzos para mejorar la solidez de la recuperación incluyen el uso de modelos de inferencia de lenguaje natural y de resumen de documentos, que agregan complejidad y costo. Optimizar y seleccionar estos modelos auxiliares sigue siendo un desafío importante para una implementación efectiva.
Investigadores de Baidu Inc., China, proponen un marco de autorrazonamiento para mejorar la confiabilidad y trazabilidad de los RALM. Este marco genera trayectorias de autorrazonamiento a través de tres procesos: un proceso que tiene en cuenta la relevancia, un proceso selectivo que tiene en cuenta la evidencia y un proceso de análisis de trayectoria. Su objetivo es mejorar la precisión de la respuesta enseñando al modelo a razonar con los documentos recuperados. Evaluado en cuatro conjuntos de datos públicos, este método supera a los modelos existentes e iguala el rendimiento de GPT-4 utilizando solo 2000 muestras de entrenamiento. El marco mejora la interpretabilidad y la trazabilidad sin necesidad de modelos externos.
Muchos estudios han tenido como objetivo potenciar los LLM mediante la integración de información externa. Los enfoques incluyen el entrenamiento previo con pasajes recuperados, la incorporación de citas y el uso de sistemas de extremo a extremo que recuperan evidencia y generan respuestas sin cambiar los pesos del modelo. Algunos métodos instruyen o afinan dinámicamente a los LLM para que utilicen herramientas de recuperación, mientras que otros se centran en mejorar la precisión fáctica mediante la recuperación y la edición. Se han explorado técnicas como el filtrado de documentos irrelevantes, la compresión de documentos y la corrección de errores para mejorar la solidez. El enfoque, en cambio, identifica oraciones clave y cita documentos relevantes dentro de un marco de extremo a extremo, evitando la necesidad de modelos externos y ofreciendo eficiencia sin depender de tokens especiales o muestras de entrenamiento extensas.
El problema de la generación aumentada por recuperación con razonamiento automático implica definir el proceso mediante el cual un modelo de aprendizaje automático genera respuestas basadas en trayectorias de razonamiento. Dada una consulta y un corpus de documentos, el modelo produce respuestas compuestas de declaraciones y tokens, y cada declaración cita documentos relevantes. El enfoque implica entrenar al modelo de aprendizaje automático para que genere trayectorias de razonamiento y respuestas en una sola pasada. El proceso se divide en tres etapas: evaluar la relevancia del documento, seleccionar y citar oraciones clave, y analizar el razonamiento para producir una respuesta final. Los datos se generan y se controla su calidad mediante herramientas automatizadas y métodos de filtrado para garantizar la precisión antes de entrenar el modelo con estos datos aumentados.
Se llevaron a cabo experimentos exhaustivos en dos conjuntos de datos de control de calidad de formato corto, un conjunto de datos de control de calidad de formato largo y un conjunto de datos de verificación de hechos para evaluar el marco SELF-REASONING. La eficacia del marco se evaluó utilizando varios recuperadores y métricas disponibles en el mercado adaptados a cada tarea, incluida la precisión, el recuerdo de coincidencias exactas, el recuerdo de citas y la exactitud. En comparación con los LLM básicos y los de recuperación aumentada, el enfoque SELF-REASONING demostró un rendimiento superior, en particular en tareas de control de calidad de formato largo y verificación de hechos. Superó a la mayoría de los modelos de referencia, incluidos los que requieren datos de entrenamiento adicionales o herramientas externas, al tiempo que logró un alto recuerdo de citas y precisión con menos muestras de entrenamiento y un menor consumo de recursos.
Un estudio de ablación evaluó las contribuciones de cada componente en el marco de AUTO-RAZONESAMIENTO en conjuntos de datos de verificación de hechos y control de calidad de formato breve. Los resultados mostraron que omitir el proceso de reconocimiento de relevancia (RAP), el proceso selectivo de reconocimiento de evidencia (EAP) o el proceso de análisis de trayectoria (TAP) redujo significativamente el rendimiento, lo que resalta la importancia de cada componente. El marco demostró solidez ante documentos recuperados ruidosos y desordenados, superando a otros modelos en tales condiciones. El análisis de citas humanas mostró que la calidad de las citas del marco está bien alineada con las evaluaciones automáticas, a menudo con mejores puntajes. Los hallazgos subrayan la eficacia del marco para mejorar el rendimiento de LLM en tareas intensivas en conocimiento.
Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.