Convergence se comunica Proxy Lite: una versión mini, peso abierto del asistente proxy que funciona bastante bien en las tareas de navegación de la interfaz de usuario

En el panorama digital actual, la automatización de las interacciones con el contenido web sigue siendo un desafío matizado. Muchas soluciones existentes son intensivas en recursos y están diseñadas para tareas estrechamente definidas, lo que limita su aplicabilidad más amplia. Los desarrolladores a menudo enfrentan el doble desafío de equilibrar la eficiencia computacional con la necesidad de un modelo que pueda generalizarse bien en diversos sitios web. Los sistemas tradicionales, en gran medida que dependen de la predicción rápida, a menudo carecen del razonamiento reflexivo requerido para la naturaleza impredecible de los entornos web. Además, los modelos patentados generalmente restringen el acceso a trabajos internos detallados, lo que dificulta que los investigadores y profesionales en la comunidad de código abierto se basen en métodos de vanguardia. Estos problemas persistentes subrayan la importancia de desarrollar una herramienta de automatización que sea eficiente y accesible.

La convergencia ha introducido Proxy lite: Una versión mini de peso abierto de su asistente proxy bien considerado. Este modelo de lenguaje de visión de parámetros 3B está diseñado para extender las sofisticadas capacidades de automatización web a la comunidad de código abierto. En lugar de prometer hazañas extraordinarias, Proxy Lite tiene como objetivo ofrecer un enfoque equilibrado que combine la eficiencia con la confiabilidad. Su arquitectura se basa en una base sólida, lo que le permite realizar una variedad de tareas basadas en la web sin imponer grandes demandas computacionales.

Lo que hace que Proxy Lite sea notable es su diseño transparente y su enfoque de peso abierto. Esto alienta a la comunidad a explorar, modificar y mejorar su marco. Con un sistema integrado para el modelo de lenguaje de visión (VLM) y las interacciones del navegador, Proxy Lite permite un control matizado sobre las tareas del navegador. La configuración del modelo admite aplicaciones prácticas que van desde la extracción de datos de rutina hasta tareas de navegación más complejas, todo mientras mantiene el uso de recursos bajo control.

Aspectos técnicos y sus beneficios

En su núcleo, Proxy Lite aprovecha un modelo de parámetros 3B construido en la base QWEN2.5-VL-3B-Instructo. Esta elección refleja un compromiso de equilibrar el rendimiento con eficiencia. El modelo emplea un proceso trifásico para generar respuestas:

  • Observación: El modelo primero examina el estado actual de la página web, confirmando, por ejemplo, que se ha desestimado un banner de superposición o privacidad.
  • Pensamiento: Luego determina metódicamente el siguiente curso de acción, sopesando las diversas posibilidades basadas en el contexto.
  • Llamada de herramienta: Finalmente, emite un comando preciso para ejecutar la acción seleccionada dentro del navegador.

Este enfoque estructurado no solo mejora la confiabilidad de la tarea, sino que también facilita la capacidad del modelo para generalizar en diferentes tipos de interacciones web. Al reflejar los procesos de razonamiento similares a los humanos, Proxy Lite logra lograr un equilibrio entre la simplicidad y la sofisticación. Además, su diseño admite una integración directa en las interfaces de línea de comandos y las aplicaciones aerodinámicas, lo que hace que la implementación sea accesible incluso para aquellos con modestos recursos técnicos.

Ideas de rendimiento y evaluaciones prácticas

Proxy Lite se ha evaluado cuidadosamente utilizando el Benchmark de WebVoyager, un conjunto integral de tareas diseñadas para probar las capacidades de automatización web. El modelo logró una puntuación general del 72.4%, un fuerte indicador de rendimiento dada su naturaleza de peso abierto. Las estadísticas de rendimiento detalladas en varios sitios web revelan su diseño reflexivo:

  • Allrecipes: Al lograr una tasa de éxito del 87.8% con un promedio de 10.3 intercambios de mensajes, demuestra efectividad en entornos ricos en contenido.
  • Amazonas: Una tasa de éxito del 70.0% aquí resalta la capacidad del modelo para navegar por plataformas de comercio electrónico más complejas y dinámicas.
  • Sitios notables de alto perfil: Con tasas de éxito en los 80 bajos en plataformas como Apple y GitHub, Proxy Lite muestra un comportamiento confiable en diversos sitios.
  • Servicios de Google: Si bien algunas áreas, como los vuelos de Google, producen métricas de éxito más bajas, el rendimiento general sigue siendo competitivo teniendo en cuenta el alcance del modelo.

Estos hallazgos reflejan un rendimiento equilibrado, con proxy lite que gestionan de manera eficiente tareas sin la sobrecarga generalmente asociada con modelos más grandes y patentados. La evaluación integral no solo subraya su utilidad actual, sino que también apunta a potenciales mejoras a través de refinamientos impulsados ​​por la comunidad.

Conclusión

Proxy Lite emerge como una herramienta cuidadosamente diseñada en el campo de la automatización web. Al abordar los desafíos clave, como las limitaciones de recursos, la generalización y la transparencia, ofrece una solución práctica para automatizar las tareas de rutina en línea. Su enfoque de peso abierto y su diseño modular invitan a la colaboración y el desarrollo continuo, proporcionando un recurso valioso tanto para la investigación académica como para los proyectos comerciales.


Verificar el Detalle técnico y Modelo aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.