Investigadores de Google presentan el agente LLM estilo ReAct: un salto adelante en inteligencia artificial para responder preguntas complejas con superación personal continua

Con la reciente introducción de los modelos de lenguaje grande (LLM), el campo de la inteligencia artificial (IA) ha eclipsado significativamente. Aunque estos modelos han demostrado con éxito un rendimiento increíble en tareas como la generación de contenido y la respuesta a preguntas, todavía existen ciertos desafíos para responder consultas complicadas y abiertas que requieren interacción con otras herramientas o API.

Los sistemas basados en resultados, donde se obtiene fácilmente retroalimentación, son efectivos para tareas más simples, mientras que, para problemas más complejos, es útil un enfoque de supervisión de procesos, que implica definir flujos de trabajo a través de descomposiciones de tareas comprensibles para los humanos. Estos flujos de trabajo, llamados agentes LLM, utilizan herramientas externas o API para llevar a cabo procesos de varios pasos y lograr un propósito. La tarea de muestra considerada es responder consultas complicadas recopilando datos y elaborando una respuesta de un párrafo utilizando una API de búsqueda.

Los modelos existentes que pueden responder preguntas complejas en lenguaje natural que requieren un razonamiento de varios pasos y la integración de información externa encuentran fallas debido a la naturaleza no diferenciable de las interacciones con el conocimiento externo y también porque no es posible entrenarlos de un extremo a otro para corregir estos errores. simple.

Para abordar estos desafíos, un equipo de investigadores de Google sugirió desarrollar un agente LLM estilo ReAct que pueda pensar y actuar en respuesta a información externa. Debido a su capacidad para gestionar procedimientos de varios pasos, el agente estilo ReAct puede responder de manera eficiente a consultas complejas.

El equipo ha presentado una técnica similar a ReST para mejorar aún más el rendimiento y manejar escenarios de falla. Esta técnica utiliza una estrategia de aprendizaje por refuerzo de lotes crecientes con retroalimentación de IA, lo que permite un entrenamiento iterativo en trayectorias anteriores. El objetivo principal es permitir que el agente se desarrolle y se destile continuamente con el tiempo.

El equipo compartió que se obtuvo un modelo compacto ajustado después de solo dos ejecuciones de algoritmo, a partir de un modelo grande sugerido. A pesar de tener dos órdenes de magnitud y menos parámetros, el modelo más pequeño pudo demostrar un rendimiento comparable en puntos de referencia difíciles de composición y respuesta a preguntas.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

Se ha introducido un agente autocrítico estilo ReAct destinado a respuestas extendidas a preguntas.

Se ha propuesto una métrica de evaluación proxy para la autoevaluación para el agente utilizando los conjuntos de datos Bamboogle y BamTwoogle.

Se ha demostrado el rendimiento mejorado del agente al ajustar iterativamente sus líneas de razonamiento en forma ReST.

Se ha utilizado retroalimentación gradual de IA para mejorar el agente, eliminando la necesidad de entrenar datos con etiquetas humanas.

Se ha demostrado que el agente se puede reducir efectivamente a uno o dos órdenes de magnitud más pequeños utilizando los datos sintéticos producidos durante este proceso iterativo, manteniendo al mismo tiempo un desempeño cercano al del agente instructor que había sido entrenado previamente.

En conclusión, este enfoque combina una técnica de entrenamiento iterativo, ReST, con un agente LLM diseñado al estilo ReAct. Mediante la incorporación de conocimiento externo y un amplio ajuste del modelo con parametrización reducida, esta combinación definitivamente puede superar los desafíos de responder preguntas difíciles y, en última instancia, mejorar el rendimiento en puntos de referencia exigentes.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🐝 [FREE AI WEBINAR] Google Gemini Pro: descripción general de los desarrolladores: 20 de diciembre de 2023, 10 a. m. PST

Investigadores de Google presentan el agente LLM estilo ReAct: un salto adelante en inteligencia artificial para responder preguntas complejas con superación personal continua

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Meta FAIR lanza NeuralSet: un paquete Python para Neuro-AI que admite incrustaciones de fMRI, M/EEG, Spikes y HuggingFace

Habilitar la capacitación en IA para preservar la privacidad en dispositivos cotidianos | Noticias del MIT

Cómo crear flujos de trabajo de LLM rastreables y evaluados utilizando Promptflow, Prompty y OpenAI

You missed

Trump pide a sus asesores que se preparen para un bloqueo extendido a Irán

Las reformas bancarias de Uzbekistán impulsan las inversiones

Muelles de superyates/cruceros de súper lujo en Palma

¿Por qué Channing Tatum y Zoe Kravitz rompieron y pusieron fin a su compromiso? – Vida en Hollywood