El estudio de agentes autónomos impulsados por grandes modelos de lenguaje (LLM) se ha mostrado muy prometedor en la mejora de la productividad humana. Estos agentes están diseñados para ayudar en diversas tareas, como codificación, análisis de datos y navegación web. Permiten a los usuarios centrarse en el trabajo creativo y estratégico mediante la automatización de tareas digitales rutinarias. Sin embargo, a pesar de los avances, estos sistemas enfrentan desafíos para lograr la eficiencia y confiabilidad requeridas para las aplicaciones del mundo real, particularmente en la adaptación a nuevos entornos.
Una de las mayores limitaciones en este campo es la falta de conjuntos de datos de calidad y específicos del entorno. Los LLM actuales son en gran medida estáticos y se basan en datos previos a la capacitación que no consideran escenarios dinámicos y variados que se encuentran en entornos del mundo real. La incapacidad de adaptarse ha resultado en dificultades para los LLM a la hora de realizar tareas que necesitan comprensión contextual o razonamiento de varios pasos, creando una enorme brecha entre lo que es potencial y lo que estos sistemas pueden hacer.
Las técnicas tradicionales se basaban en datos anotados por humanos e ingeniería rápida para mejorar el rendimiento de los LLM. Por lo general, implican recuperar instancias de bibliotecas existentes o extraer información de modelos previamente entrenados. Pero al hacerlo, adolecen de graves deficiencias, como altos costos, ineficiencia en la creación de conjuntos de datos de interacción de múltiples rondas e incapacidad de escalar en una amplia gama de dominios. Otros enfoques, como el aprendizaje por refuerzo o la generación aumentada por recuperación (TRAPO), abordan las brechas hasta cierto punto, pero pueden surgir datos confusos o trayectorias complejas que no se manejan adecuadamente.
Investigadores de Google y la Universidad de Hong Kong han presentado Learn-by-Interact, un marco que aborda las limitaciones antes mencionadas. Learn-by-Interact automatiza la síntesis de datos de interacción basándose en cualquier recurso accesible: documentación y tutoriales, en este caso. El marco permite a los agentes generar instrucciones de tareas e interactuar dentro de entornos de forma autónoma. Estas interacciones se resumen y refinan mediante la construcción hacia atrás, que alinea las trayectorias generadas con los objetivos de la tarea. Esta innovación garantiza que los datos utilizados para el entrenamiento y la inferencia sean coherentes y de alta calidad.
La metodología detrás de Learn-by-Interact incorpora varios procesos clave. Primero, el marco utiliza la autoinstrucción para crear diversas instrucciones de tareas a partir de recursos existentes. Los agentes ejecutan estas instrucciones en entornos simulados produciendo trayectorias de interacción que luego se resumen como nuevas instrucciones de tareas. La construcción hacia atrás forma una parte integral de este proceso, abstrayendo y realineando trayectorias con sus resultados previstos para garantizar la alineación entre las tareas y los datos sintetizados. Los mecanismos de filtrado del sistema filtran los datos ruidosos y utilizan únicamente ejemplos de alta calidad para llevar adelante el proceso. Además, los nuevos canales de recuperación mejoran aún más el uso de datos sintetizados al fusionar métodos basados en observaciones y modelos para mejorar la relevancia y la eficiencia en la recuperación.
Se llevaron a cabo evaluaciones exhaustivas de Learn-by-Interact en cuatro puntos de referencia: SWE-bench, WebArena, OSWorld y Spider2-V. El marco siempre mostró un mejor rendimiento que los métodos tradicionales. Por ejemplo, en OSWorld, el marco casi duplicó el rendimiento básico de Claude-3.5, lo que aumentó la precisión del 12,4% al 22,5%. Codestral-22B, en evaluaciones basadas en capacitación, mostró una mejora del 4,7% al 24,2% después de la capacitación sobre datos sintetizados por el marco. En todos los puntos de referencia, Learn-by-Interact logró una mejora promedio del 8,8% en entornos sin capacitación. Estos resultados subrayan la solidez y escalabilidad del marco, lo que lo convierte en una herramienta eficaz para diversas aplicaciones del mundo real.
Además de las buenas métricas de rendimiento, el estudio destacó la eficiencia del marco. A diferencia de los métodos tradicionales que consumen muchos recursos computacionales, Learn-by-Interact optimiza la inferencia al reducir la cantidad de llamadas al modelo de lenguaje y tokens consumidos durante la evaluación. La eficiencia y la capacidad del marco para generar datos de alta calidad de forma autónoma lo posicionan como un avance significativo en el desarrollo de agentes LLM adaptativos.
Uno de los desafíos más abrumadores en el campo se aborda con la solución Learn-by-Interact: síntesis a escala de alta calidad y específica del entorno. Aporta escalabilidad a la síntesis de dichos datos gracias a la cada vez menor necesidad de anotaciones humanas costosas y que requieren mucho tiempo, al tiempo que logra un rendimiento superior en diferentes tareas. Esto supone un avance considerable en el desarrollo de agentes LLM más fiables y prácticos para su implementación en entornos del mundo real. Este marco introduce el uso de construcción retrospectiva y técnicas de recuperación avanzadas para mejorar el rendimiento y establecerlo como un nuevo punto de referencia para la eficiencia y la adaptabilidad en la investigación de agentes autónomos.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.
🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de lenguaje, incorporaciones y LoRA (Promovido)
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.