Con la reciente introducción de los modelos de lenguaje grande (LLM), el campo de la inteligencia artificial (IA) ha eclipsado significativamente. Aunque estos modelos han demostrado con éxito un rendimiento increíble en tareas como la generación de contenido y la respuesta a preguntas, todavía existen ciertos desafíos para responder consultas complicadas y abiertas que requieren interacción con otras herramientas o API.
Los sistemas basados en resultados, donde se obtiene fácilmente retroalimentación, son efectivos para tareas más simples, mientras que, para problemas más complejos, es útil un enfoque de supervisión de procesos, que implica definir flujos de trabajo a través de descomposiciones de tareas comprensibles para los humanos. Estos flujos de trabajo, llamados agentes LLM, utilizan herramientas externas o API para llevar a cabo procesos de varios pasos y lograr un propósito. La tarea de muestra considerada es responder consultas complicadas recopilando datos y elaborando una respuesta de un párrafo utilizando una API de búsqueda.
Los modelos existentes que pueden responder preguntas complejas en lenguaje natural que requieren un razonamiento de varios pasos y la integración de información externa encuentran fallas debido a la naturaleza no diferenciable de las interacciones con el conocimiento externo y también porque no es posible entrenarlos de un extremo a otro para corregir estos errores. simple.
Para abordar estos desafíos, un equipo de investigadores de Google sugirió desarrollar un agente LLM estilo ReAct que pueda pensar y actuar en respuesta a información externa. Debido a su capacidad para gestionar procedimientos de varios pasos, el agente estilo ReAct puede responder de manera eficiente a consultas complejas.
El equipo ha presentado una técnica similar a ReST para mejorar aún más el rendimiento y manejar escenarios de falla. Esta técnica utiliza una estrategia de aprendizaje por refuerzo de lotes crecientes con retroalimentación de IA, lo que permite un entrenamiento iterativo en trayectorias anteriores. El objetivo principal es permitir que el agente se desarrolle y se destile continuamente con el tiempo.
El equipo compartió que se obtuvo un modelo compacto ajustado después de solo dos ejecuciones de algoritmo, a partir de un modelo grande sugerido. A pesar de tener dos órdenes de magnitud y menos parámetros, el modelo más pequeño pudo demostrar un rendimiento comparable en puntos de referencia difíciles de composición y respuesta a preguntas.
El equipo ha resumido sus principales contribuciones de la siguiente manera.
- Se ha introducido un agente autocrítico estilo ReAct destinado a respuestas extendidas a preguntas.
- Se ha propuesto una métrica de evaluación proxy para la autoevaluación para el agente utilizando los conjuntos de datos Bamboogle y BamTwoogle.
- Se ha demostrado el rendimiento mejorado del agente al ajustar iterativamente sus líneas de razonamiento en forma ReST.
- Se ha utilizado retroalimentación gradual de IA para mejorar el agente, eliminando la necesidad de entrenar datos con etiquetas humanas.
- Se ha demostrado que el agente se puede reducir efectivamente a uno o dos órdenes de magnitud más pequeños utilizando los datos sintéticos producidos durante este proceso iterativo, manteniendo al mismo tiempo un desempeño cercano al del agente instructor que había sido entrenado previamente.
En conclusión, este enfoque combina una técnica de entrenamiento iterativo, ReST, con un agente LLM diseñado al estilo ReAct. Mediante la incorporación de conocimiento externo y un amplio ajuste del modelo con parametrización reducida, esta combinación definitivamente puede superar los desafíos de responder preguntas difíciles y, en última instancia, mejorar el rendimiento en puntos de referencia exigentes.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.