Los modelos de lenguaje grande (LLM) han demostrado grandes capacidades en diversas tareas de lenguaje natural, como resumen de texto, respuesta a preguntas, generación de código, etc., emergiendo como una solución poderosa para muchos problemas del mundo real. Sin embargo, un área en la que estos modelos tienen dificultades son las conversaciones dirigidas a objetivos en las que tienen que lograr un objetivo mediante la conversación, por ejemplo, actuando como un agente de viajes eficaz para ofrecer planes de viaje personalizados. En la práctica, generalmente brindan respuestas detalladas y no personalizadas.
Los modelos entrenados con ajuste supervisado o aprendizaje por refuerzo (RL) de un solo paso comúnmente tienen dificultades con este tipo de tareas, ya que no están optimizadas para obtener resultados conversacionales generales después de múltiples interacciones. Además, otra área en la que carecen es en la gestión de la incertidumbre en dichas conversaciones. En este artículo, los investigadores de UC Berkeley han explorado un nuevo método para adaptar los LLM con RL para diálogos dirigidos a objetivos. Sus contribuciones incluyen un algoritmo optimizado de disparo cero y un novedoso sistema llamado motor de imaginación (IE) que genera preguntas diversas y relevantes para la tarea para capacitar a los agentes posteriores.
Dado que el IE no puede producir agentes eficaces por sí solo, los investigadores utilizan un LLM para generar posibles escenarios. Para mejorar la eficacia de un agente en el logro de los resultados deseados, es necesario el aprendizaje por refuerzo de varios pasos para determinar la estrategia óptima. Los investigadores han hecho una modificación a este enfoque. En lugar de utilizar muestras dentro de la política, utilizaron RL fuera de línea basada en valores para aprender una política a partir de los propios datos sintéticos.
Para probar la eficacia de su método, los investigadores compararon el desempeño de un agente GPT y de IE+RL utilizando evaluadores humanos. Tomaron en consideración dos conversaciones dirigidas a objetivos basadas en problemas del mundo real. Los investigadores utilizaron el modelo GPT-3.5 en IE para generar datos sintéticos y un modelo GPT-2 bastante pequeño, solo decodificador, como agente posterior. Esto es lo que hace que su enfoque sea práctico, ya que solo se requiere un modelo de última generación para la generación de datos, lo que reduce los costos computacionales.
Basándose en sus experimentos, descubrieron que el agente propuesto superaba al modelo GPT en todas las métricas y garantizaba la naturalidad del diálogo resultante. También según los resultados cualitativos, el agente IE+RL pudo desempeñarse mejor que su contraparte. Produjo preguntas fáciles de responder y preguntas de seguimiento basadas inteligentemente en la anterior. Los investigadores también compararon el desempeño de los dos agentes mediante una simulación. Aunque ambos estaban casi a la par y el agente IE+RL superó al agente GPT, el primero produjo mejores resultados cuando se evaluó cualitativamente.
En conclusión, en este trabajo de investigación, los autores han introducido un método para mejorar el desempeño de los LLM en diálogos dirigidos a objetivos. Utilizando un motor de imaginación, generan datos sintéticos diversos, realistas y relevantes para la tarea para entrenar a un agente de diálogo. Más específicamente, utilizan un enfoque fuera de línea para evitar costos computacionales. Los resultados muestran que su método eclipsa constantemente a los métodos tradicionales, allanando el camino para futuras mejoras. Creen que este proceso podría automatizarse aún más para mejorar el desempeño de los agentes de diálogo de disparo cero y, por lo tanto, mejorar la forma en que interactuamos con los sistemas de inteligencia artificial.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.