Conozca GPT-4V-Act: un asistente de IA multimodal que combina armoniosamente GPT-4V(ision) con un navegador web

Un investigador de Machine Learning compartió el lanzamiento de su último proyecto, GPT-4V-Act, con el comunidad reddit recientemente. Esta idea surgió de una discusión reciente sobre la estrategia de conexión a tierra visual conocida como Set-of-Mark en GPT-4V. Curiosamente, las pruebas demostraron que GPT-4V con esta capacidad podría analizar una captura de pantalla de la interfaz de usuario y ofrecer las coordenadas de píxeles exactas necesarias para guiar un mouse y un teclado para completar una determinada tarea.

Hasta ahora, el agente ha demostrado ser capaz de realizar publicaciones en Reddit, realizar búsquedas de productos e iniciar el proceso de pago a pesar de haber sido sometido a pruebas limitadas. Curiosamente, también reconoció fallas en el etiquetado automático al intentar jugar un juego y buscó corregir la actividad.

Utilizando GPT-4V(ision) y un navegador web en perfecta armonía, GPT-4V-Act es un asistente de IA multimodal articulado. Simula el control humano hasta la entrada y salida de teclado y mouse de bajo nivel. El objetivo es proporcionar un flujo de trabajo sencillo entre humanos y computadoras, lo que conducirá al desarrollo de tecnologías que mejoren en gran medida la usabilidad de cualquier interfaz de usuario, faciliten la automatización de los flujos de trabajo y hagan posible el uso de pruebas de interfaz de usuario automatizadas.

Cómo funciona

Al combinar GPT-4V(ision) y la indicación de conjunto de marcas con un etiquetador automático individual, logramos GPT-4V-Act. Cada elemento de la interfaz de usuario con el que se puede interactuar recibe su ID numérico mediante este etiquetador automático.

GPT-4V-Act puede inferir los pasos necesarios para completar una tarea a partir de una tarea y una captura de pantalla. Las etiquetas numéricas se pueden utilizar como punteros a coordenadas precisas de píxeles cuando se ingresan con un mouse o teclado.

Nota crucial

Dado que GPT-4V(ision) no se ha lanzado al público en general, se requiere una suscripción actual a ChatGPT Plus para recibir indicaciones multimodales en este proyecto. Cabe señalar que el uso en este proyecto de una API GPT-4V no aprobada puede violar la condición correspondiente de los Términos de servicio de ChatGPT.

El uso de modelos de lenguaje (LM) que incluyen capacidades como llamadas a funciones está en aumento. Estos se ejecutan principalmente en API y representaciones textuales de estados. Los agentes con una interfaz de usuario (UI) pueden resultar más útiles en situaciones generales en las que no resultan prácticos. Dado que la interacción del agente con la computadora es análoga a la de un ser humano, la capacitación se puede realizar mediante demostraciones de expertos sin requerir amplios conocimientos especializados.

Revisar la Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.

Dhanshree

" data-medium-file="https://www.marktechpost.com/wp-content/uploads/2022/11/20221028_101632-Dhanshree-Shenwai-169x300.jpg" data-large-file="https://www.marktechpost.com/wp-content/uploads/2022/11/20221028_101632-Dhanshree-Shenwai-576x1024.jpg"/>

Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.

🔥 Conozca Retouch4me: una familia de complementos impulsados por inteligencia artificial para retoque fotográfico

Conozca GPT-4V-Act: un asistente de IA multimodal que combina armoniosamente GPT-4V(ision) con un navegador web

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenAI lanza GPT-5.6 (Sol, Terra, Luna): una familia de modelos de tres niveles con herramienta programática que llama en la API de respuestas

Ingeniería de bucles para recuperación jerárquica: lectura de un documento extenso según su índice

Meta Superintelligence Labs lanza Muse Spark 1.1: un modelo de razonamiento multimodal para tareas agentes en Meta Model API

You missed

El Voyager Golden Record lleva una pequeña muestra de uranio en su cubierta, colocada allí para que quien la encuentre pueda medir la desintegración y calcular cuánto tiempo ha estado a la deriva: un reloj incorporado para un mensaje diseñado para durar alrededor de mil millones de años.

El tiempo en Mallorca para el viernes diez de julio

La serie de comedia de Kay Kay Menon, Adarsh Baal Vidyalaya, se estrenará en ESTA fecha

OpenAI lanza GPT-5.6 (Sol, Terra, Luna): una familia de modelos de tres niveles con herramienta programática que llama en la API de respuestas