¿Cómo permitimos que un agente de IA maneje de manera segura tareas web reales como reservar, buscar y completar formularios directamente en nuestros propios dispositivos sin enviar todo a la nube? Microsoft Research ha lanzado Fara-7B, un modelo de lenguaje pequeño agente de 7 mil millones de parámetros diseñado específicamente para uso en computadoras. Es un agente de uso informático de peso abierto que se ejecuta a partir de capturas de pantalla, predice las acciones del mouse y el teclado y es lo suficientemente pequeño como para ejecutarse en el dispositivo de un solo usuario, lo que reduce la latencia y mantiene los datos de navegación locales.
De los chatbots a los agentes de uso informático
Los LLM convencionales orientados al chat devuelven texto. En cambio, los agentes de uso informático como Fara-7B controlan el navegador o la interfaz de usuario del escritorio para completar tareas como completar formularios, reservar viajes o comparar precios. Perciben la pantalla, razonan sobre el diseño de la página y luego emiten acciones de bajo nivel como hacer clic, desplazarse, escribir, buscar en la web o visitar la URL.
Muchos sistemas existentes se basan en grandes modelos multimodales envueltos en complejos andamios que analizan árboles de accesibilidad y organizan múltiples herramientas. Esto aumenta la latencia y, a menudo, requiere una implementación del lado del servidor. Fara-7B comprime el comportamiento de dichos sistemas multiagente en un único modelo de decodificador multimodal construido sobre Qwen2.5-VL-7B. Consume capturas de pantalla del navegador y contexto de texto, luego genera directamente un texto pensado seguido de una llamada a la herramienta con argumentos fundamentados como coordenadas, texto o URL.
FaraGen, trayectorias sintéticas para la interacción web
El cuello de botella clave para los agentes de uso informático son los datos. Los registros de alta calidad de la interacción humana en la web con acciones de varios pasos son raros y costosos de recopilar. El proyecto Fara presenta FaraGen, un motor de datos sintéticos que genera y filtra trayectorias web en sitios activos.
FaraGen utiliza un proceso de tres etapas. La propuesta de tarea comienza a partir de URL iniciales extraídas de corpus públicos como ClueWeb22 y Tranco, que se clasifican en dominios como comercio electrónico, viajes, entretenimiento o foros. Los modelos de lenguaje grandes convierten cada URL en tareas realistas que los usuarios pueden intentar en esa página, por ejemplo, reservar entradas de cine específicas o crear una lista de compras con restricciones en reseñas y materiales. Las tareas deben poder realizarse sin iniciar sesión ni pagar, estar completamente especificadas, ser útiles y verificables automáticamente.
Task Solving ejecuta un sistema multiagente basado en Magentic-One y Magentic-UI. Un agente de Orchestrator planifica la estrategia de alto nivel y mantiene un libro de contabilidad del estado de las tareas. Un agente de WebSurfer recibe árboles de accesibilidad y capturas de pantalla de conjunto de marcas, luego emite acciones del navegador a través de Playwright, como hacer clic, escribir, desplazarse, visitar_url o web_search. Un agente UserSimulator proporciona instrucciones de seguimiento cuando la tarea necesita aclaración.
La verificación de trayectoria utiliza tres verificadores basados en LLM. Un Verificador de Alineación verifica que las acciones y la respuesta final coincidan con la intención de la tarea. Un verificador de rúbricas genera una rúbrica de submetas y califica su cumplimiento parcial. Un verificador multimodal inspecciona capturas de pantalla y la respuesta final para detectar alucinaciones y confirmar que la evidencia visible respalda el éxito. Estos verificadores están de acuerdo con las etiquetas humanas en el 83,3 por ciento de los casos, con tasas de falsos positivos y falsos negativos reportadas entre el 17 y el 18 por ciento.
Después del filtrado, FaraGen produce 145.603 trayectorias con 1.010.797 pasos en 70.117 dominios únicos. Las trayectorias varían de 3 a 84 pasos, con un promedio de 6,9 pasos y alrededor de 0,5 dominios únicos por trayectoria, lo que indica que muchas tareas involucran sitios que no se ven en otras partes del conjunto de datos. Generar datos con modelos premium como GPT-5 y o3 cuesta aproximadamente 1 dólar por trayectoria verificada.
Arquitectura modelo
Fara-7B es un modelo exclusivo de decodificador multimodal que utiliza Qwen2.5-VL-7B como base. Toma como entrada el objetivo del usuario, las últimas capturas de pantalla del navegador y el historial completo de pensamientos y acciones anteriores. La ventana de contexto es de 128.000 tokens. En cada paso, el modelo primero genera una cadena de pensamiento que describe el estado actual y el plan, luego genera una llamada a la herramienta que especifica la siguiente acción y sus argumentos.
El espacio de herramientas coincide con la interfaz de uso de computadora Magentic-UI. Incluye tecla, tipo, movimiento del mouse, clic izquierdo, desplazamiento, URL de visita, búsqueda web, retroceso del historial, pausa y memorización de hechos, espera y finalización. Las coordenadas se predicen directamente como posiciones de píxeles en la captura de pantalla, lo que permite que el modelo funcione sin acceso al árbol de accesibilidad en el momento de la inferencia.
La capacitación utiliza ajustes supervisados en aproximadamente 1,8 millones de muestras que combinan múltiples fuentes de datos. Estos incluyen las trayectorias de FaraGen divididas en pasos de observar, pensar y actuar, tareas de conexión a tierra y localización de la interfaz de usuario, respuesta visual a preguntas y subtítulos basados en capturas de pantalla, y conjuntos de datos de seguridad y rechazo.
Puntos de referencia y eficiencia
Microsoft evalúa Fara-7B en cuatro puntos de referencia web en vivo: WebVoyager, Online-Mind2Web, DeepShop y el nuevo WebTailBench, que se centra en segmentos poco representados, como reservas de restaurantes, solicitudes de empleo, búsqueda de bienes raíces, comparación de precios y tareas de composición en múltiples sitios.
En estos puntos de referencia, Fara-7B logra un 73,5 por ciento de éxito en WebVoyager, un 34,1 por ciento en Online-Mind2Web, un 26,2 por ciento en DeepShop y un 38,4 por ciento en WebTailBench. Esto supera la línea base UI-TARS-1.5-7B del 7B Computer Use Agent, que obtiene puntuaciones de 66,4, 31,3, 11,6 y 19,5 respectivamente, y se compara favorablemente con sistemas más grandes como la vista previa del uso de la computadora OpenAI y las configuraciones del SoM Agent creadas en GPT-4o.
En WebVoyager, Fara-7B utiliza un promedio de 124.000 tokens de entrada y 1.100 tokens de salida por tarea, con aproximadamente 16,5 acciones. Utilizando los precios de los tokens de mercado, el equipo de investigación estima un costo promedio de 0,025 dólares por tarea, frente a alrededor de 0,30 dólares para los agentes SoM respaldados por modelos de razonamiento patentados como GPT-5 y o3. Fara-7B utiliza una cantidad similar de tokens de entrada, pero aproximadamente una décima parte de los tokens de salida de estos agentes SoM.
Conclusiones clave
Fara-7B es un agente de uso informático de peso abierto y parámetro 7B construido sobre Qwen2.5-VL-7B que opera directamente desde capturas de pantalla y texto, luego genera acciones fundamentadas como clics, escritura y navegación, sin depender de árboles de accesibilidad en el momento de la inferencia. El modelo se entrena con 145 603 trayectorias de navegador verificadas y 1 010 797 pasos generados por el canal FaraGen, que utiliza propuesta de tareas de múltiples agentes, resolución y verificación basada en LLM en sitios web activos en 70 117 dominios. Fara-7B logra un 73,5 por ciento de éxito en WebVoyager, un 34,1 por ciento en Online-Mind2Web, un 26,2 por ciento en DeepShop y un 38,4 por ciento en WebTailBench, mejorando sustancialmente con respecto a la línea base 7B UI-TARS-1.5 en los cuatro puntos de referencia. En WebVoyager, Fara-7B utiliza alrededor de 124.000 tokens de entrada y 1.100 tokens de salida por tarea, con un promedio de 16,5 acciones, lo que arroja un costo estimado de alrededor de 0,025 dólares por tarea, que es aproximadamente un orden de magnitud más barato en el uso de tokens de salida que los agentes SoM respaldados por modelos de clase GPT 5.
Notas editoriales
Fara-7B es un paso útil hacia agentes de uso informático prácticos que pueden ejecutarse en hardware local con un menor costo de inferencia y al mismo tiempo preservar la privacidad. La combinación de Qwen2.5 VL 7B, trayectorias sintéticas de FaraGen y WebTailBench ofrece un camino claro y bien instrumentado desde la generación de datos de múltiples agentes hasta un único modelo compacto que iguala o supera a los sistemas más grandes en puntos de referencia clave al tiempo que aplica salvaguardias de punto crítico y rechazo.
Consulte el Papel, Pesos del modelo y detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.