Este artículo de China presenta el 'coaprendizaje experiencial': un nuevo marco de aprendizaje automático que fomenta la colaboración entre agentes autónomos

El aprendizaje automático y la inteligencia artificial han provocado un cambio transformador en varios ámbitos, con especial atención en el desarrollo de agentes autónomos impulsados por grandes modelos de lenguaje (LLM). Estos agentes han demostrado capacidades notables para manejar diversas tareas de forma independiente, lo que demuestra su potencial para revolucionar la resolución de tareas en numerosos campos. Sin embargo, un desafío importante en el ámbito de estas entidades impulsadas por la IA es su tendencia a operar de forma aislada, a menudo repitiendo errores y recurriendo a métodos ineficientes de prueba y error. Este enfoque limita su eficiencia y dificulta su proceso de aprendizaje.

Las metodologías existentes en el desarrollo de agentes autónomos mejoran principalmente los LLM con características avanzadas como memoria sensible al contexto, planificación de varios pasos y uso de herramientas estratégicas. A pesar de estos avances, los agentes suelen realizar tareas sin beneficiarse de las experiencias históricas, lo que genera ineficiencias en sus capacidades de resolución de problemas. La falta de un mecanismo para integrar experiencias acumuladas de tareas pasadas es un inconveniente notable en el panorama actual de la tecnología de agentes autónomos.

Un equipo de investigadores de la Universidad de Tsinghua, la Universidad de Tecnología de Dalian y la Universidad de Correos y Telecomunicaciones de Beijing han introducido el ‘Coaprendizaje experiencial’, un marco innovador diseñado para revolucionar las capacidades de los agentes autónomos de desarrollo de software. Este enfoque innovador redefine cómo estos agentes colaboran y aprenden al incorporar experiencias pasadas en su tejido operativo. El marco comprende tres módulos integrales: seguimiento conjunto, co-memorización y co-razonamiento, cada uno de los cuales desempeña un papel crucial en la mejora de las capacidades de colaboración y aprendizaje de los agentes.

En el módulo de seguimiento conjunto, los agentes participan en un ensayo colaborativo, siguiendo meticulosamente sus “trayectorias de procedimiento” para diversas tareas de capacitación. Este seguimiento sienta las bases para que los agentes compartan experiencias y desarrollen estrategias de forma colaborativa. El módulo de co-memorización promueve esto extrayendo estratégicamente ‘atajos’ de estas trayectorias basándose en la retroalimentación ambiental externa. Estos atajos se integran en los grupos de experiencias colectivas de los agentes, lo que les permite hacer referencia a experiencias pasadas y mejorar las estrategias futuras de resolución de tareas. Finalmente, el módulo de co-razonamiento combina las experiencias colectivas de los agentes, permitiéndoles interactuar de manera más avanzada a través de instrucciones y respuestas refinadas. Al aprovechar su respectivo conocimiento experiencial, los agentes generan soluciones más reveladoras y precisas para tareas invisibles.

La implementación del Co-Learning Experiencial ha demostrado mejoras significativas en el desempeño de los agentes autónomos. El marco ha aumentado notablemente la autonomía de los agentes, reduciendo significativamente los errores repetitivos y los tiempos de ejecución. Los agentes equipados con Co-Learning experiencial han demostrado una mayor eficiencia colaborativa, lo que reduce la necesidad de una participación humana adicional en el desarrollo de software. El uso de experiencias pasadas ha sido particularmente eficaz para mejorar la precisión y la eficiencia de la finalización de tareas. Este rendimiento mejorado se evidencia en la capacidad de los agentes para recordar y aplicar “atajos” de alta calidad de experiencias pasadas junto con las capacidades subyacentes de los LLM.

El coaprendizaje experiencial marca un paso fundamental en el desarrollo de software autónomo impulsado por IA. El marco aborda una brecha crítica en sus capacidades operativas al permitir que los agentes aprendan y aprovechen experiencias pasadas de manera efectiva. Este avance mejora la eficiencia de los agentes autónomos y reduce su dependencia de la intervención humana, allanando el camino para futuros sistemas independientes e inteligentes. El énfasis del marco en la eficiencia colaborativa y la reducción de la dependencia humana subraya su potencial para influir significativamente en el campo de los agentes autónomos y la IA.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, LinkedIn Grarribay Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Muhammad Athar Ganaie, pasante de consultoría en MarktechPost, es un defensor del aprendizaje profundo eficiente, con especial atención en la capacitación dispersa. Cursando un M.Sc. en Ingeniería Eléctrica, con especialización en Ingeniería de Software, combina conocimientos técnicos avanzados con aplicaciones prácticas. Su esfuerzo actual es su tesis sobre “Mejora de la eficiencia en el aprendizaje por refuerzo profundo”, que muestra su compromiso de mejorar las capacidades de la IA. El trabajo de Athar se encuentra en la intersección “Capacitación escasa en DNN” y “Aprendizaje por refuerzo profundo”.

🎯 Conozca AImReply: su nueva extensión de escritura de correo electrónico con IA… ¡Pruébela gratis ahora!.

Este artículo de China presenta el ‘coaprendizaje experiencial’: un nuevo marco de aprendizaje automático que fomenta la colaboración entre agentes autónomos

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Anthropic lanza Claude Opus 4.7: una importante actualización para codificación agente, visión de alta resolución y tareas autónomas a largo plazo

Cómo aprender Python para ciencia de datos rápidamente en 2026 (sin perder tiempo)

Una guía de codificación para pruebas basadas en propiedades utilizando hipótesis con diseño de pruebas con estado, diferenciales y metamórficas

You missed

El presidente del Gobierno español declara “el fin de la derecha” en la cumbre política de Barcelona « Euro Weekly News

Chrisean Rock comparte una actualización emocional antes del combate de boxeo

Anthropic lanza Claude Opus 4.7: una importante actualización para codificación agente, visión de alta resolución y tareas autónomas a largo plazo

Pequeños microbios escondidos en el suelo pueden ayudar a extraer la lluvia del cielo, revela un estudio: ScienceAlert