AI Los agentes se están volviendo más avanzados y capaces de manejar tareas complejas en diferentes plataformas. Los sitios web y las aplicaciones de escritorio están destinadas al uso humano, lo que exige el conocimiento de los arreglos visuales, los componentes interactivos y el comportamiento basado en el tiempo. El manejo de tales sistemas requiere monitorear las acciones del usuario, desde clics hasta sofisticadas acciones de arrastrar y soltar. Tales desafíos son difíciles de manejar para AI y no pueden competir con la capacidad humana con respecto a las tareas web. Es necesario un sistema de evaluación más amplio para medir y mejorar los agentes de IA para la navegación web.
Los puntos de referencia existentes evalúan el rendimiento de la IA en tareas web específicas, como las compras en línea y la reserva de vuelos, pero no pueden capturar la complejidad de las interacciones web modernas. Modelos como GPT-4O, Claude Computer-USE, Géminis-1.5-Proy Qwen2-vl lucha con la navegación y la ejecución de tareas. Inicialmente basado en el aprendizaje de refuerzo, los marcos de evaluación tradicionales se expandieron a las tareas web, pero se limitaron a escenarios de corto contexto, lo que condujo a una saturación rápida y evaluaciones incompletas. La interacción web moderna requiere habilidades avanzadas como el uso de herramientas, la planificación y el razonamiento ambiental, que no se prueban completamente. Si bien las interacciones múltiples agentes están ganando atención, los métodos actuales no evalúan efectivamente la colaboración y la competencia entre los sistemas de IA.
Para abordar las limitaciones de los puntos de referencia de IA actuales en la interacción web, investigadores de Convergence Labs Ltd. y Clusterfudge Ltd. propuesto Juego webun marco diseñado para evaluar a los agentes de IA de navegación web 50 Desafíos interactivos. Estos desafíos incluyen el uso básico del navegador, la gestión de insumos complejos, el pensamiento mental, la automatización del flujo de trabajo y la diversión interactiva. En comparación con los puntos de referencia anteriores, los juegos web tienen la intención de medir correctamente separando las habilidades de interacción y proporcionando AI probada con control. Su diseño del lado del cliente evita las dependencias de los recursos externos, proporcionando pruebas uniformes y reproducibles.
Juego web es de diseño modular. Especifica problemas en un estandarizado Jsonl Formateo para la integración sin esfuerzo con marcos de prueba automatizados y extensión con tareas adicionales. Todos los problemas siguen una estructura de verificación determinista que garantiza la verificabilidad de la tarea cuando se realiza. La estructura examina el rendimiento de la IA de manera sistemática a través de las interacciones web, cuantificando la navegación, la toma de decisiones y la capacidad de adaptabilidad en entornos dinámicos.
Los investigadores evaluaron los principales modelos de base de la visión, incluidos GPT-4O, Tirar Uso informático (soneto 3.5), Gemini-1.5-Pro, QWEN2-VL y un asistente de proxy, utilizando juegos web para evaluar sus capacidades de interacción web. Dado que la mayoría de los modelos no fueron diseñados para interacciones en la web, requerían andamios a través de un navegador de cromo usando dramaturgo. A excepción de Claude, los modelos carecían de suficiente conexión a tierra de la GUI para determinar las ubicaciones exactas de los píxeles, por lo que se utilizó un enfoque de marcas (SOMS) para resaltar elementos relevantes. Los modelos operaban dentro de un Proceso de decisión de Markov parcialmente observado (POMDP)recibiendo Jpeg Capturas de pantalla y elementos SOM basados en texto mientras se ejecutan acciones basadas en herramientas a través de un método de solicitación de estilo React. La evaluación mostró que Claude obtuvo un puntaje más bajo que GPT-4 a pesar de tener un control web más preciso, probablemente debido a las restricciones de entrenamiento de Anthrope que impiden acciones que se asemejan a el comportamiento humano. Participantes humanos de prolíficas tareas completadas fácilmente, promediando 80 minutos y ganando £ 18, con algunos logros 100% montones. Los hallazgos revelaron una amplia brecha de capacidad entre las habilidades humanas y de IA, al igual que el desafío ARC, con algunas actividades como la “sinfonía deslizante” que exige capacidades exigentes de arrastrar y soltar que resultaron difíciles de lograr los modelos, revelando limitaciones en las habilidades de IA para interactuar en sitios web del mundo real.
En resumen, el punto de referencia propuesto encontró una brecha significativa en el rendimiento humano frente a la IA para las tareas de interacción web. El modelo de IA de mejor rendimiento, GPT-4Osolo logrado 41.2% éxito, mientras que los humanos lograron 95.7%. Los resultados revelaron que los sistemas de IA actuales luchan con la interacción web intuitiva, y las limitaciones en modelos como Claude Computer-Use aún impiden el éxito de la tarea. Este enfoque se puede utilizar como punto de referencia para una mayor investigación, con mejoras en la flexibilidad de la IA, el razonamiento y la eficiencia de la interacción web que se está dirigiendo.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.