Los investigadores de Tencent presentan AppAgent: un novedoso marco de agentes multimodal basado en LLM diseñado para operar aplicaciones de teléfonos inteligentes

La inteligencia artificial (IA) está asistiendo a una fase transformadora, particularmente en el desarrollo de agentes inteligentes. Estos agentes están diseñados para realizar tareas que van más allá del simple procesamiento del lenguaje. Representan una nueva clase de IA capaz de comprender e interactuar con diversas interfaces y entornos digitales, lo que supone un paso más allá de las aplicaciones tradicionales de IA basadas en texto.

Un desafío crítico en esta área es la excesiva dependencia de los agentes inteligentes de las entradas basadas en texto, lo que limita significativamente sus capacidades de interacción. Esta limitación se hace evidente cuando es esencial comprender señales visuales o interactuar con elementos no textuales. La incapacidad de estos agentes para interactuar plenamente con su entorno obstaculiza su eficacia en diversos entornos, particularmente en aquellos que requieren una comprensión más amplia más allá de la información textual.

En respuesta a este desafío, se ha producido un cambio hacia la mejora de los modelos de lenguajes grandes (LLM) con capacidades multimodales. Estos modelos mejorados ahora pueden procesar varias entradas, incluidos texto, imágenes, audio y video. Este desarrollo amplía la funcionalidad de los LLM, permitiéndoles realizar tareas que requieren una comprensión más completa de su entorno. Tales tareas incluyen:

  • Navegar por interfaces digitales complejas.
  • Comprender las señales visuales dentro de las aplicaciones de teléfonos inteligentes.
  • Responder a las entradas multimodales de una manera más humana.

En este contexto, los investigadores de Tencent han sido pioneros en un nuevo enfoque al introducir un marco de agente multimodal diseñado específicamente para operar aplicaciones de teléfonos inteligentes. Este marco revolucionario permite a los agentes interactuar con aplicaciones a través de acciones intuitivas como tocar y deslizar, imitando patrones de interacción humana. Este enfoque no requiere una integración profunda del sistema, lo que mejora la adaptabilidad del agente a diferentes aplicaciones y refuerza su seguridad y privacidad.

https://arxiv.org/abs/2312.13771

El mecanismo de aprendizaje de este agente es particularmente innovador. Implica una fase de exploración autónoma donde el agente interactúa con varias aplicaciones, aprendiendo de estas interacciones. Este proceso permite al agente crear una base de conocimientos integral, que utiliza para realizar tareas complejas en diferentes aplicaciones. Este método se ha probado exhaustivamente en múltiples aplicaciones de teléfonos inteligentes, lo que demuestra su eficacia y versatilidad a la hora de realizar diversas tareas.

El desempeño de este agente fue evaluado mediante pruebas rigurosas en varias aplicaciones de teléfonos inteligentes. Estas incluían aplicaciones estándar y complejas, como herramientas de edición de imágenes y sistemas de navegación. Los notables resultados mostraron la capacidad del agente para percibir, analizar y ejecutar tareas con precisión dentro de estas aplicaciones. El agente demostró una gran competencia y adaptabilidad, manejando eficazmente tareas que normalmente requerirían habilidades cognitivas similares a las humanas. Su desempeño en escenarios del mundo real destacó su practicidad y potencial para redefinir cómo la IA interactúa con las interfaces digitales.

Esta investigación significa un avance importante en la IA, marcando un cambio de agentes inteligentes tradicionales basados ​​en texto a agentes multimodales más versátiles. La capacidad de estos agentes para comprender y navegar por las aplicaciones de los teléfonos inteligentes de forma humana no es sólo un logro tecnológico sino también un trampolín hacia aplicaciones de IA más sofisticadas. Abre nuevas vías para la aplicación de la IA en la vida cotidiana y al mismo tiempo presenta interesantes oportunidades para investigaciones futuras, especialmente en la mejora de las capacidades del agente para interacciones más complejas y matizadas.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Muhammad Athar Ganaie, pasante de consultoría en MarktechPost, es un defensor del aprendizaje profundo eficiente, con especial atención en la capacitación dispersa. Cursando un M.Sc. en Ingeniería Eléctrica, con especialización en Ingeniería de Software, combina conocimientos técnicos avanzados con aplicaciones prácticas. Su esfuerzo actual es su tesis sobre “Mejora de la eficiencia en el aprendizaje por refuerzo profundo”, que muestra su compromiso de mejorar las capacidades de la IA. El trabajo de Athar se encuentra en la intersección “Capacitación escasa en DNN” y “Aprendizaje por refuerzo profundo”.