Microsoft AI libera omniparser v2: una herramienta de IA que convierte cualquier LLM en un agente de uso de una computadora

En el ámbito de la inteligencia artificial, permitir que los modelos de idiomas grandes (LLM) naveguen e interactúen con las interfaces gráficas de usuario (GUI) ha sido un desafío notable. Si bien los LLM son expertos en procesar datos textuales, a menudo encuentran dificultades al interpretar elementos visuales como íconos, botones y menús. Esta limitación restringe su efectividad en tareas que requieren una interacción perfecta con las interfaces de software, que son predominantemente visuales.

Para abordar este problema, Microsoft ha introducido Omniparser V2, una herramienta diseñada para mejorar las capacidades de comprensión de la GUI de LLMS. Omniparser V2 convierte las capturas de pantalla de UI en datos estructurados y legibles por máquina, lo que permite a LLM comprender e interactuar con varias interfaces de software de manera más efectiva. Este desarrollo tiene como objetivo cerrar la brecha entre el procesamiento de datos textuales y visuales, facilitando aplicaciones de IA más completas.

Omniparser V2 opera a través de dos componentes principales: detección y subtítulos. El módulo de detección emplea una versión ajustada del modelo YOLOV8 para identificar elementos interactivos dentro de una captura de pantalla, como botones e iconos. Simultáneamente, el módulo de subtítulos utiliza un modelo base Florence-2 ajustado para generar etiquetas descriptivas para estos elementos, proporcionando contexto sobre sus funciones dentro de la interfaz. Este enfoque combinado permite a los LLM construir una comprensión detallada de la GUI, que es esencial para la interacción precisa y la ejecución de la tarea.

Una mejora significativa en Omniparser V2 es la mejora de sus conjuntos de datos de entrenamiento. La herramienta ha sido capacitada en un conjunto más extenso y refinado de subtítulos de iconos y datos de conexión a tierra, obtenidos de páginas y aplicaciones web ampliamente utilizadas. Este conjunto de datos enriquecido mejora la precisión del modelo para detectar y describir elementos interactivos más pequeños, que son cruciales para una interacción GUI efectiva. Además, al optimizar el tamaño de la imagen procesado por el modelo de subtítulos de iconos, Omniparser V2 logra una reducción del 60% en la latencia en comparación con su versión anterior, con un tiempo de procesamiento promedio de 0.6 segundos por cuadro en una GPU A100 y 0.8 segundos en un solo RTX 4090 GPU.

La efectividad de Omniparser V2 se demuestra a través de su desempeño en el punto de referencia de PROVENSPOT PRO, un marco de evaluación para las capacidades de fundamento de la GUI. Cuando se combina con GPT-4O, el V2 Omniparser logró una precisión promedio del 39.6%, un aumento notable del puntaje de referencia de GPT-4O de 0.8%. Esta mejora destaca la capacidad de la herramienta para permitir que los LLM interpreten e interactúen con precisión con GUI complejas, incluso aquellas con pantallas de alta resolución e íconos de objetivos pequeños.

Para apoyar la integración y la experimentación, Microsoft ha desarrollado Omnitool, un sistema de Windows dockerizado que incorpora V2 Omniparser junto con herramientas esenciales para el desarrollo de agentes. Omnitool es compatible con varios LLM de última generación, incluidos los 4o/o1/o3-Mini de OpenAI, Deepseek’s R1, el 2.5VL de Qwen y el soneto de Anthrope. Esta flexibilidad permite a los desarrolladores utilizar V2 omniparser en diferentes modelos y aplicaciones, simplificando la creación de agentes de GUI basados ​​en la visión.

En resumen, Omniparser V2 representa un avance significativo en la integración de LLM con interfaces gráficas de usuario. Al convertir las capturas de pantalla de la interfaz de usuario en datos estructurados, permite a LLM comprender e interactuar con las interfaces de software de manera más efectiva. Las mejoras técnicas en la precisión de la detección, la reducción de la latencia y el rendimiento de referencia hacen que Omniparser V2 sea una herramienta valiosa para los desarrolladores con el objetivo de crear agentes inteligentes capaces de navegar y manipular las GUI de forma autónoma. A medida que AI continúa evolucionando, herramientas como Omniparser V2 son esenciales para cerrar la brecha entre el procesamiento de datos textuales y visuales, lo que lleva a sistemas de IA más intuitivos y capaces.


Verificar el Detalle técnico, Modelo en HF y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.