Conozca GPT-4V-Act: un asistente de IA multimodal que combina armoniosamente GPT-4V(ision) con un navegador web

Un investigador de Machine Learning compartió el lanzamiento de su último proyecto, GPT-4V-Act, con el comunidad reddit recientemente. Esta idea surgió de una discusión reciente sobre la estrategia de conexión a tierra visual conocida como Set-of-Mark en GPT-4V. Curiosamente, las pruebas demostraron que GPT-4V con esta capacidad podría analizar una captura de pantalla de la interfaz de usuario y ofrecer las coordenadas de píxeles exactas necesarias para guiar un mouse y un teclado para completar una determinada tarea.

Hasta ahora, el agente ha demostrado ser capaz de realizar publicaciones en Reddit, realizar búsquedas de productos e iniciar el proceso de pago a pesar de haber sido sometido a pruebas limitadas. Curiosamente, también reconoció fallas en el etiquetado automático al intentar jugar un juego y buscó corregir la actividad.

Utilizando GPT-4V(ision) y un navegador web en perfecta armonía, GPT-4V-Act es un asistente de IA multimodal articulado. Simula el control humano hasta la entrada y salida de teclado y mouse de bajo nivel. El objetivo es proporcionar un flujo de trabajo sencillo entre humanos y computadoras, lo que conducirá al desarrollo de tecnologías que mejoren en gran medida la usabilidad de cualquier interfaz de usuario, faciliten la automatización de los flujos de trabajo y hagan posible el uso de pruebas de interfaz de usuario automatizadas.

Cómo funciona

Al combinar GPT-4V(ision) y la indicación de conjunto de marcas con un etiquetador automático individual, logramos GPT-4V-Act. Cada elemento de la interfaz de usuario con el que se puede interactuar recibe su ID numérico mediante este etiquetador automático.

GPT-4V-Act puede inferir los pasos necesarios para completar una tarea a partir de una tarea y una captura de pantalla. Las etiquetas numéricas se pueden utilizar como punteros a coordenadas precisas de píxeles cuando se ingresan con un mouse o teclado.

Nota crucial

Dado que GPT-4V(ision) no se ha lanzado al público en general, se requiere una suscripción actual a ChatGPT Plus para recibir indicaciones multimodales en este proyecto. Cabe señalar que el uso en este proyecto de una API GPT-4V no aprobada puede violar la condición correspondiente de los Términos de servicio de ChatGPT.

El uso de modelos de lenguaje (LM) que incluyen capacidades como llamadas a funciones está en aumento. Estos se ejecutan principalmente en API y representaciones textuales de estados. Los agentes con una interfaz de usuario (UI) pueden resultar más útiles en situaciones generales en las que no resultan prácticos. Dado que la interacción del agente con la computadora es análoga a la de un ser humano, la capacitación se puede realizar mediante demostraciones de expertos sin requerir amplios conocimientos especializados.


Revisar la Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.