Este artículo de IA presenta Lemur y Lemur Chat para armonizar el lenguaje natural y el código para agentes lingüísticos

En un sentido amplio, los agentes inteligentes son solucionadores de problemas autónomos, dotados de capacidades de percepción, juicio y acción basadas en datos recopilados de su entorno. Las aplicaciones recientes de esta idea se han mostrado prometedoras en el desarrollo de agentes lingüísticos que puedan utilizar el lenguaje natural para realizar una amplia gama de tareas complejas en diversos contextos. Esto es especialmente cierto cuando estos agentes se construyen utilizando modelos de lenguaje grandes (LLM). Los agentes de este tipo pueden imitar el pensamiento y el lenguaje humanos porque aprovechan la experiencia humana en forma de LLM. Esto permite a las personas ser flexibles en el uso de herramientas, adaptarse a nuevas situaciones, razonar lingüísticamente y desarrollar sistemas multiagente sobre la marcha.

Los LLM deben comprender la interacción, el razonamiento y la planificación humanos y garantizar la base en los contextos necesarios para construir adecuadamente las bases de los agentes lingüísticos. Las capacidades del lenguaje natural de los LLM les permiten imitar fielmente la conversación, el pensamiento y la planificación humanos. Sin embargo, la ejecución basada en el entorno generalmente se logra a través de código de propósito general o API de dominio específico, como las que se utilizan para administrar navegadores web, comunicarse con terminales de interfaz de línea de comandos del sistema operativo y controlar brazos robóticos.

Para llenar este vacío, un nuevo estudio realizado por la Universidad de Hong Kong, XLang Lab, Salesforce Research, Sea AI Lab, la Universidad de Washington y MIT CSAIL presenta Lemur y Lemur-Chat, dos tecnologías de última generación disponibles públicamente. Modelos que han sido previamente entrenados y ajustados para lograr la armonía entre texto y código. A través de pasos de ajuste de instrucción y preentrenamiento cuidadosamente elaborados, los investigadores mejoraron el Llama-2-70B original. Para garantizar capacidades mejoradas en la capacidad de codificación y al mismo tiempo conservar el rendimiento en la capacidad del lenguaje natural, construyeron un corpus centrado en el código basado en The Stack, que incluye 90 mil millones de tokens con una proporción de texto a código de 10:1. Este prototipo se conoce como Lemur. Para crear el modelo de seguimiento de instrucciones, Lemur-Chat, primero lo entrenaron previamente utilizando alrededor de 100.000 instancias tanto de texto como de código. Se ha demostrado que Lemur y Lemur-Chat son los modelos de código abierto más completos después de someterse a exámenes exhaustivos en 8 puntos de referencia textuales y de codificación.

Además, este esfuerzo se propone proporcionar estándares de agentes para evaluar las competencias básicas de los agentes lingüísticos en diversos entornos. El equipo se centra particularmente en su habilidad con las herramientas y su capacidad para arraigarse en la retroalimentación tanto ambiental como social. También investigan las dificultades inherentes a situaciones parcialmente visibles del mundo real, donde el agente debe operar basándose en información incompleta y realizar acciones adicionales para llenar los vacíos. Los experimentos muestran que Lemur-Chat funciona mejor en 12 de los 13 puntos de referencia de agentes en comparación con otros modelos de código abierto. Esto ejemplifica cómo Lemur-Chat puede superar los modelos de código abierto existentes para agentes lingüísticos al cerrar la brecha de rendimiento entre las alternativas comerciales y de código abierto mediante la combinación de talentos naturales y de codificación.

Los resultados de estas pruebas demuestran la importancia de combinar habilidades lingüísticas y computacionales en entornos basados ​​en agentes. Modelos como Llama-2-70B-Chat, que sobresalen en el procesamiento del lenguaje natural pero tienen problemas con la codificación, pueden utilizar eficientemente herramientas básicas para ayudar al razonamiento porque el espacio de acción es limitado y el esfuerzo de emplear dichas herramientas es bajo. Por el contrario, el espacio de acción suele ser enorme cuando se enfrenta a escenarios sofisticados de toma de decisiones como la navegación web y la navegación doméstica, y los modelos con altas capacidades de codificación tienen una ventaja a la hora de construir secuencias de acción ejecutables complejas. En resumen, el rendimiento superior de Lemur se puede atribuir a su superioridad en programación y procesamiento de lenguaje natural. Este estudio sienta las bases para la creación de agentes de lenguaje sofisticados que puedan funcionar bien en una amplia gama de entornos al arrojar luz sobre la optimización de la sinergia entre los lenguajes naturales y de programación.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.