Abrazando la cara Libertades SMOL2Operator: una tubería de código abierto para entrenar un VLM 2.2B en un codificador de GUI agente

Hugging Face (HF) ha lanzado SMOL2operator, una receta reproducible de extremo a extremo que convierte un pequeño modelo de lenguaje de visión (VLM) sin UI previo en un agente de uso de la herramienta que opere la GUI. La versión cubre las utilidades de transformación de datos, los scripts de capacitación, los conjuntos de datos transformados y el punto de control del modelo de parámetro 2.2B resultante, posicionado como un plan completo para construir agentes de la GUI desde cero en lugar de un solo resultado de referencia.

Pero, ¿qué hay de nuevo?

Post-entrenamiento de dos fases en un pequeño VLM: a partir de SmOlvLM2-2.2B-Instructo: un modelo que “inicialmente no tiene capacidades de conexión a tierra para tareas de GUI”. Smol2operator primero instala la percepción/base, luego capas el razonamiento agente con ajuste supervisado (SFT). Espacio de acción unificado a través de fuentes heterogéneas: una tubería de conversión normaliza las taxonomías de acción de la GUI dispares (móvil, escritorio, web) en una única API de función consistente (por ejemplo, clic, tipo, arrastre, normalizado [0,1] Coordenadas), que permite una capacitación coherente en conjuntos de datos. Un convertidor de espacios de acción admite la reasignación de vocabularios personalizados.

¿Pero por qué SMOL2operator?

La mayoría de las tuberías de agentes de GUI están bloqueadas por esquemas de acción fragmentados y coordenadas no portátiles. La unificación de espacio de acción de SMOL2operator y la estrategia de coordenadas normalizadas hacen que los conjuntos de datos interoperables y el entrenamiento estable bajo cambio de tamaño de imagen, que es común en el preprocesamiento de VLM. Esto reduce la sobrecarga de ingeniería de ensamblar datos de GUI de múltiples fuentes y reduce la barrera para reproducir el comportamiento del agente con modelos pequeños.

¿Cómo funciona? pila de entrenamiento y ruta de datos

Estandarización de datos: analizar y normalizar las llamadas de funciones de los conjuntos de datos de origen (por ejemplo, etapas AGUVIS) en un conjunto de firmas unificadas; eliminar acciones redundantes; estandarizar los nombres de los parámetros; Convierta el píxel en coordenadas normalizadas. Fase 1 (Percepción/conexión a tierra): SFT en el conjunto de datos de acción unificada para aprender localización de elementos y posibilidades básicas de la interfaz de usuario, medidas en ScreensPot-V2 (localización de elementos en capturas de pantalla). Fase 2 (razonamiento de cognición/agente): SFT adicional para convertir la percepción fundamentada en planificación de acción gradual alineada con la API de acción unificada.

El equipo de HF informa una trayectoria de rendimiento limpia en ScreensPot-V2 (Benchmark) como se aprende a la base, y muestra una estrategia de capacitación similar a una reducción de ~ 460m “Nanovlm”, lo que indica la portabilidad del método a través de las capacidades (los números se presentan en las tablas del Post).

Alcance, límites y próximos pasos

No es un impulso de “SOTA a toda costa”: el equipo de HF enmarca el trabajo como un plan de proceso, la conversión de datos de propiedad → Grounding → Razonamiento, en lugar de perseguir picos de tabla de clasificación. Enfoque de evaluación: Centro de demostraciones en la percepción de pantallas Pot-V2 y videos cualitativos de tareas de extremo a extremo; Los puntos de referencia de tareas más amplios entre envases, cruzados, o de larga duración son un trabajo futuro. El equipo de HF señala ganancias potenciales de RL/DPO más allá de SFT para la adaptación en la política. Trayectoria del ecosistema: la hoja de ruta de ScreenEnv incluye una cobertura más amplia del sistema operativo (Android/MacOS/Windows), lo que aumentaría la validez externa de las políticas capacitadas.

Resumen

SMOL2operator es una tubería reproducible completamente de código abierto que actualiza SMOLVLM2-2.2B-Instructo, un VLM con cero conexión a tierra GUI, en un codificador de GUI agente a través de un proceso SFT de dos fases. La versión estandariza los esquemas heterogéneos de acción de la GUI en una API unificada con coordenadas normalizadas, proporciona conjuntos de datos transformados basados ​​en AGUVIS, publica cuadernos de capacitación y código de preprocesamiento, y envía un punto de control final más un espacio de demostración. Se dirige a la transparencia del proceso y a la portabilidad sobre la persecución de la clasificación, y las ranuras en el tiempo de ejecución de Smolagents con ScreenEnv para su evaluación, ofreciendo un plan práctico para los equipos que construyen pequeños agentes de GUI de calidad para operadores.

Consulte los detalles técnicos y la colección completa en HF. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.

Max es analista de IA en MarktechPost, con sede en Silicon Valley, quien da forma activamente al futuro de la tecnología. Enseña robótica en Brainvyne, combate el spam con CONTRYEMAIL y aprovecha la IA diariamente para traducir los avances tecnológicos complejos en ideas claras y comprensibles

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial