Microsoft lanza Fara1.5: una familia de agentes de navegador para uso informático (4B/9B/27B) que superan el uso de ordenadores OpenAI Operador y Gemini 2.5 en Online-Mind2Web

El laboratorio AI Frontiers de Microsoft Research lanzó Fara1.5. Es una familia de modelos de agentes de uso informático (CUA) para el navegador. El lanzamiento incluye tres tamaños: Fara1.5-4B, Fara1.5-9B y Fara1.5-27B. Los modelos están integrados con MagenticLite, la interfaz de navegador de espacio aislado de Microsoft para estos agentes.

Los agentes de uso informático son modelos de píxel a acción que impulsan un navegador real. Leen capturas de pantalla y emiten acciones del mouse y el teclado para completar tareas. Los productos de agentes recientes como Operador de OpenAI y Uso de computadora Gemini 2.5 de Google se encuentran en esta categoría.

Fara1.5-27B obtiene un 72 % de éxito en las tareas en Online-Mind2Web. Ese punto de referencia cubre 300 tareas en 136 sitios populares. En la misma evaluación, Operador de OpenAI obtiene una puntuación del 58,3% y Gemini 2.5 Computer Use obtiene una puntuación del 57,3%. Navigator n1 de Yutori alcanza el 64,7% y Fara1.5-9B obtiene un 63,4%. Eso casi duplica al predecesor Fara-7B, que obtuvo una puntuación del 34,1% en el mismo punto de referencia.

https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/

Arquitectura y bucle de agentes.

Los modelos utilizan puntos de control base Qwen3.5 en sus variantes 4B, 9B y 27B. Operan a través de un ciclo de observar-pensar-actuar. En cada paso, el modelo toma el historial de conversaciones anteriores y las tres capturas de pantalla del navegador más recientes. Luego emite pensamientos y una única acción siguiente.

El espacio de acción incluye entradas estándar de mouse y teclado y acciones específicas de la web, como la búsqueda web. También expone metaacciones para la gestión del contexto. Estos incluyen memorizar datos para su uso posterior y hacer preguntas aclaratorias al usuario. Estas metaacciones permiten al agente operar en horizontes más largos y trabajar en colaboración con los usuarios.

Mezcla de entrenamiento

La formación utiliza ajustes supervisados ​​en aproximadamente dos millones de muestras. La combinación es 60% de trayectorias web y 12,8% de entornos sintéticos. El llenado de formularios y las interacciones con los usuarios representan el 12,5%. La conexión a tierra contribuye con el 8,8% y el VQA con el 4,9%. Las secciones más pequeñas cubren el arrastre de la GUI, el seguimiento de instrucciones y la seguridad. La pérdida se aplica sólo a los tres giros más recientes de cada trayectoria.

https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/

FaraGen1.5: el canal de datos sintéticos

FaraGen1.5 es el canal sintético que produjo las trayectorias de entrenamiento. Tiene tres componentes modulares: entornos, solucionadores y verificadores.

Los entornos se dividen en dos tipos. Las tareas de Internet abierto se ejecutan en sitios web activos que no requieren inicios de sesión. Las tareas de dominio cerrado requieren sesiones autenticadas o realizan acciones irreversibles, como enviar un correo electrónico.

Para dominios cerrados, el equipo creó seis clones sintéticos llamados FaraEnvs. Cubren Mail, Calendar, Stream, ML, Stay y Scheduler. Cada clon tiene una interfaz realista, una API completamente funcional y una base de datos con datos iniciales basados ​​en personas.

Estos entornos se crearon utilizando GitHub Copilot CLI más un refinamiento humano iterativo. Debido a que el equipo controla toda la pila, conocen el resultado correcto de cada tarea. Para las tareas que modifican el backend, un juez de LLM compara instantáneas de la base de datos antes y después de la ejecución. Las tareas que no cambian de estado se califican según las respuestas de referencia calculadas previamente.

El agente solucionador utiliza GPT-5.4 de OpenAI con herramientas personalizadas que reflejan el espacio de acción de Fara1.5. El solucionador obtiene una puntuación del 83% en Online-Mind2Web utilizando WebJudge automatizado. El solucionador anterior Fara-7B obtuvo una puntuación del 67% en la misma evaluación. Se invoca un simulador de usuario cuando el solucionador emite una llamada a Ask_user o cuando finaliza una tarea.

Tres verificadores determinan qué trayectorias entran en el entrenamiento. La corrección utiliza rúbricas generadas por LLM para tareas de Internet abierta y bases de datos privilegiadas para juzgar las sintéticas. La eficiencia penaliza acciones redundantes o innecesarias. La verificación de la interacción del usuario verifica si el agente se detuvo en puntos críticos.

Puntos críticos y seguridad.

Fara1.5 está entrenado para detenerse y preguntar al usuario en tres situaciones. Primero: la tarea requiere información personal que el usuario no ha proporcionado. Segundo: la descripción de la tarea es ambigua o faltan detalles necesarios para actuar. Tercero: está a punto de realizarse una acción irreversible sin aprobación previa.

La capacitación en seguridad utiliza conjuntos de datos de seguridad pública y tareas internas alineadas con la Política de IA responsable de Microsoft. Dentro de MagenticLite, todas las acciones de los agentes se registran y son auditables. El navegador de espacio aislado también actúa como un límite de seguridad entre el agente y la máquina del usuario.

Otros puntos de referencia

En WebVoyager, Fara1.5-27B obtiene una puntuación del 88,6%, el 9B alcanza el 86,6% y el 4B alcanza el 80,8%. El 9B también supera a sus pares de tamaño similar como MolmoWeb 8B, GUI-Owl-1.5 8B y Holo2 8B. Todas las ejecuciones de evaluación de Fara1.5 utilizan Browserbase para estabilizar las sesiones y reducir el bloqueo a nivel de sesión. Los números se promedian en tres ejecuciones independientes.

En WebTailBench v1.5, que apunta a tareas web de cola larga, Fara1.5-9B obtiene un 64,5 % de éxito en el proceso y un 32,3 % de éxito en los resultados. GPT-5.4 obtiene una puntuación del 79,6 % en el proceso y del 57,4 % en el resultado en el mismo punto de referencia.

Conclusiones clave

Aquí hay cinco conclusiones clave de una sola línea:

Microsoft Research lanzó Fara1.5, una familia de agentes de uso de navegadores en tamaños 4B, 9B y 27B construidos sobre Qwen3.5. Fara1.5-27B obtiene una puntuación del 72% en Online-Mind2Web, superando a OpenAI Operador (58,3%), Gemini 2.5 CU (57,3%) y Yutori Navigator n1 (64,7%). La canalización de datos sintéticos FaraGen1.5 desbloquea la capacitación en dominios cerrados a través de seis clones de aplicaciones funcionales (FaraEnvs) creados con GitHub Copilot CLI. Fara1.5 hace una pausa para preguntar al usuario en puntos críticos: información faltante, tareas ambiguas o acciones irreversibles sin aprobación.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros