¿Cómo se puede convertir el trabajo lento y manual en navegadores y computadoras de escritorio en un sistema confiable y automatizado que realmente pueda usar una computadora a escala? Lux es el último ejemplo de cómo los agentes de uso de computadoras pasan de la demostración de investigación a la infraestructura. El equipo de la Fundación OpenAGI ha lanzado Lux, un modelo básico que opera escritorios y navegadores reales y reporta una puntuación de 83,6 en el punto de referencia Online Mind2Web, que cubre más de 300 tareas de uso de computadoras en el mundo real. Esto está por delante de Google Gemini CUA con 69,0, OpenAI Operador con 61,3 y Anthropic Claude Sonnet 4 con 61,0.
¿Qué hace realmente Lux?
Lux es un modelo de uso de computadora, no un modelo de chat con un complemento de navegador. Tiene un objetivo de lenguaje natural, ve la pantalla y genera acciones de bajo nivel, como clics, pulsaciones de teclas y eventos de desplazamiento. Puede controlar navegadores, editores, hojas de cálculo, clientes de correo electrónico y otras aplicaciones de escritorio porque funciona en la interfaz de usuario renderizada, no en API específicas de la aplicación.
Desde el punto de vista del desarrollador, Lux está disponible a través de la consola API y SDK de OpenAGI. El equipo de investigación describe las cargas de trabajo objetivo que incluyen flujos de control de calidad del software, investigaciones profundas, gestión de redes sociales, operaciones de tiendas en línea e ingreso masivo de datos. En todas estas configuraciones, el agente necesita secuenciar docenas o cientos de acciones de la interfaz de usuario mientras se mantiene alineado con una descripción de tarea en lenguaje natural.
Tres modos de ejecución para diferentes niveles de control
Lux se entrega con tres modos de ejecución que exponen diferentes compensaciones entre velocidad, autonomía y control.
El modo actor es el camino más rápido. Se ejecuta alrededor de 1 segundo por paso y está dirigido a tareas claramente especificadas, como completar un formulario, extraer un informe de un panel o extraer un pequeño conjunto de campos de una página. Piense en ello como un motor macro de baja latencia que aún comprende el lenguaje natural.
El modo Pensador maneja objetivos vagos o de varios pasos. Descompone la instrucción de alto nivel en subtareas más pequeñas y luego las ejecuta. Las cargas de trabajo de ejemplo incluyen investigación de varias páginas, clasificación de largas colas de correo electrónico o navegación de interfaces de análisis donde la ruta exacta del clic no se especifica de antemano.
El modo Tasker ofrece el máximo determinismo. La persona que llama proporciona una lista Python explícita de pasos que Lux ejecuta uno por uno y vuelve a intentarlo hasta que la secuencia se completa o llega a un fallo grave. Esto permite a los equipos mantener gráficos de tareas, barreras de seguridad y políticas de fallas en su propio código mientras delegan el control de la interfaz de usuario al modelo.
Tasker, Actor y Thinker son los tres modos principales para flujos de trabajo procedimentales, ejecución rápida y resolución de objetivos complejos.
Puntos de referencia, latencia y costo
En Online Mind2Web, Lux alcanza una tasa de éxito del 83,6 por ciento. El mismo punto de referencia reporta un 69,0 por ciento para Gemini CUA, un 61,3 por ciento para OpenAI Operador y un 61,0 por ciento para Claude Sonnet 4. El punto de referencia contiene más de 300 tareas basadas en web recopiladas de servicios reales, por lo que es un proxy útil para agentes prácticos que controlan navegadores y aplicaciones web.
La latencia y el costo es donde los números se vuelven importantes para los equipos de ingeniería. El equipo de OpenAGI informa que Lux completa cada paso en aproximadamente 1 segundo, mientras que OpenAI Operador tarda alrededor de 3 segundos por paso en la misma configuración de evaluación. El equipo de investigación también afirma que Lux es aproximadamente 10 veces más barato por token que Operador. Para cualquier agente que pueda ejecutar fácilmente cientos de pasos en una sesión, estos factores constantes determinan si una carga de trabajo es viable en producción.
Preentrenamiento activo agente y ¿por qué es importante OSGym?
Lux se entrena con un método que el equipo de investigación de OpenAGI llama Agentic Active Pre-training. El equipo contrasta esto con el preentrenamiento del modelo de lenguaje estándar que ingiere pasivamente texto de Internet. La idea es que Lux aprenda actuando en entornos digitales y refinando su comportamiento a través de interacciones a gran escala, en lugar de limitarse a minimizar la pérdida de predicción de tokens en registros estáticos. El objetivo de optimización difiere del aprendizaje por refuerzo clásico y está configurado para favorecer la exploración y la comprensión autónomas en lugar de una recompensa configurada manualmente.
Esta configuración de entrenamiento depende de un motor de datos que puede exponer muchos entornos de sistemas operativos en paralelo. El equipo de OpenAGI ya ha abierto ese motor como OSGym, bajo una licencia del MIT que permite tanto la investigación como el uso comercial. OSGym ejecuta réplicas completas del sistema operativo, no solo entornos limitados de navegador, y admite tareas que abarcan software de oficina, navegadores, herramientas de desarrollo y flujos de trabajo de múltiples aplicaciones.
Conclusiones clave
Lux es un modelo básico de uso de computadoras que opera escritorios y navegadores completos y alcanza un 83,6 por ciento de éxito en el punto de referencia Online Mind2Web, por delante de Gemini CUA, OpenAI Operador y Claude Sonnet-4. Lux expone 3 modos, Actor, Thinker y Tasker, que cubren macros de UI de baja latencia, descomposición de objetivos en varios pasos y ejecución de guiones determinista para flujos de trabajo de producción. Se informa que Lux se ejecuta alrededor de 1 segundo por paso y es aproximadamente 10 veces más barato por token que OpenAI Operador, lo cual es importante para los agentes de largo plazo que ejecutan cientos de acciones por tarea. Lux se entrena con Agentic Active Pre-training, donde el modelo aprende actuando en entornos, en lugar de consumir solo texto web estático, que apunta a un comportamiento sólido de pantalla a acción en lugar de modelado de lenguaje puro. OSGym, el motor de datos de código abierto detrás de Lux, puede ejecutar más de 1000 réplicas del sistema operativo y generar más de 1400 trayectorias de múltiples giros por minuto a un bajo costo por réplica, lo que brinda a los equipos una forma práctica de capacitar y evaluar sus propios agentes de uso de computadoras.
Consulte el anuncio oficial, el proyecto y el repositorio. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.