Screenshot 2024 04 10 At 11.27.33 Pm.png

Las aplicaciones móviles son parte integral de la vida diaria y sirven para innumerables propósitos, desde entretenimiento hasta productividad. Sin embargo, la complejidad y diversidad de las interfaces de usuario (UI) móviles a menudo plantean desafíos en materia de accesibilidad y facilidad de uso. Estas interfaces se caracterizan por características únicas, como relaciones de aspecto alargadas y elementos densamente empaquetados, incluidos íconos y textos, que los modelos convencionales tienen dificultades para interpretar con precisión. Esta brecha en la tecnología subraya la necesidad apremiante de modelos especializados capaces de descifrar el intrincado panorama de las aplicaciones móviles.

Las investigaciones y metodologías existentes en la comprensión de la interfaz de usuario móvil han introducido marcos y modelos como el conjunto de datos RICO, Pix2Struct e ILuvUI, centrándose en el análisis estructural y el modelado de visión del lenguaje. CogAgent aprovecha las imágenes de la pantalla para la navegación de la interfaz de usuario, mientras que Spotlight aplica modelos de visión y lenguaje a las interfaces móviles. Modelos como Ferret, Shikra y Kosmos2 mejoran las capacidades de referencia y conexión a tierra, pero apuntan principalmente a imágenes naturales. MobileAgent y AppAgent emplean MLLM para la navegación en pantalla, lo que indica un énfasis creciente en mecanismos de interacción intuitivos a pesar de su dependencia de módulos externos o acciones predefinidas.

Los investigadores de Apple han presentado Hurón-UI, un modelo desarrollado específicamente para avanzar en la comprensión y la interacción con las UI móviles. Al distinguirse de los modelos existentes, Ferret-UI incorpora una capacidad de “cualquier resolución”, adaptándose a las relaciones de aspecto de la pantalla y enfocándose en detalles finos dentro de los elementos de la interfaz de usuario. Este enfoque garantiza una comprensión más profunda y matizada de las interfaces móviles.

La metodología de Ferret-UI gira en torno a la adaptación de su arquitectura para pantallas de interfaz de usuario móviles, utilizando una estrategia de «cualquier resolución» para manejar varias relaciones de aspecto. El modelo procesa las pantallas de la interfaz de usuario dividiéndolas en subimágenes, lo que garantiza un enfoque detallado de los elementos. La capacitación incluye el conjunto de datos RICO para Android y datos propietarios para pantallas de iPhone, que cubren tareas de interfaz de usuario elementales y avanzadas. Esto incluye clasificación de widgets, reconocimiento de íconos, OCR y tareas de conexión a tierra como buscar widgets y buscar íconos, aprovechando GPT-4 para generar datos de tareas avanzadas. Las subimágenes se codifican por separado, utilizando características visuales de granularidad variable para enriquecer la comprensión del modelo y las capacidades de interacción con las IU móviles.

Ferret-UI es más que un modelo prometedor; es un artista probado. Superó a los MLLM de interfaz de usuario de código abierto y a GPT-4V, mostrando un salto significativo en el rendimiento de tareas específicas. En las tareas de reconocimiento de iconos, Ferret-UI alcanzó una tasa de precisión del 95 %, un aumento sustancial del 25 % con respecto al modelo de la competencia más cercana. Logró una tasa de éxito del 90 % en la clasificación de widgets, superando a GPT-4V en un 30 %. Las tareas de conexión a tierra, como encontrar widgets e íconos, hicieron que Ferret-UI mantuviera una precisión del 92% y 93%, respectivamente, lo que marcó una mejora del 20% y 22% en comparación con los modelos existentes. Estas cifras subrayan la capacidad mejorada de Ferret-UI en la comprensión de la interfaz de usuario móvil, estableciendo nuevos puntos de referencia en precisión y confiabilidad para el campo.

En conclusión, la investigación presentó Ferret-UI, el novedoso enfoque de Apple para mejorar la comprensión de la interfaz de usuario móvil a través de una estrategia de «cualquier resolución» y un régimen de entrenamiento especializado. Al aprovechar ajustes detallados de la relación de aspecto y conjuntos de datos completos, Ferret-UI avanzó significativamente las métricas de rendimiento específicas de tareas, superando notablemente las de los modelos existentes. Los resultados cuantitativos subrayan las capacidades interpretativas mejoradas del modelo. Pero no se trata sólo de los números. El éxito de Ferret-UI ilustra el potencial de interacciones de aplicaciones móviles más intuitivas y accesibles, allanando el camino para futuros avances en la comprensión de la interfaz de usuario. Es un modelo que realmente puede marcar la diferencia en la forma en que interactuamos con las interfaces de usuario móviles.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 40.000 ml


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.