Investigadores de Stanford lanzan OpenJarvis: un marco local para crear agentes de IA personales en el dispositivo con herramientas, memoria y aprendizaje

Los investigadores de Stanford han presentado OpenJarvis, un marco de código abierto para crear agentes de IA personales que se ejecutan completamente en el dispositivo. El proyecto proviene del Scaling Intelligence Lab de Stanford y se presenta como una plataforma de investigación y una infraestructura lista para implementar para sistemas de IA locales. Su enfoque no es solo la ejecución del modelo, sino también la pila de software más amplia necesaria para hacer que los agentes en el dispositivo sean utilizables, mensurables y adaptables a lo largo del tiempo.

¿Por qué OpenJarvis?

Según el equipo de investigación de Stanford, la mayoría de los proyectos de IA personales actuales aún mantienen el componente local relativamente delgado mientras enrutan el razonamiento central a través de API de nube externas. Ese diseño introduce problemas de latencia, costos recurrentes y exposición de datos, especialmente para los asistentes/agentes que operan sobre archivos personales, mensajes y contexto de usuario persistente. OpenJarvis está diseñado para cambiar ese equilibrio haciendo que la ejecución local sea la predeterminada y el uso de la nube opcional.

El equipo de investigación vincula este comunicado con su investigación anterior de Inteligencia por vatio. En ese trabajo, informan que los modelos de lenguaje local y los aceleradores locales pueden atender con precisión el 88,7 % de las consultas de razonamiento y chat de un solo turno en latencias interactivas, mientras que la eficiencia de la inteligencia mejoró 5,3 veces entre 2023 y 2025. OpenJarvis se posiciona como la capa de software que se deriva de ese resultado: si los modelos y el hardware de consumo se están volviendo prácticos para más cargas de trabajo locales, entonces los desarrolladores necesitan una pila estándar para construir y evaluar esos sistemas.

https://scalingintelligence.stanford.edu/blogs/openjarvis/

La arquitectura de los cinco primitivos

A nivel arquitectónico, OpenJarvis se organiza en torno a cinco primitivos: Inteligencia, Motor, Agentes, Herramientas y Memoria, y Aprendizaje. El equipo de investigación los describe como abstracciones componibles que pueden compararse, sustituirse y optimizarse de forma independiente o usarse juntas como un sistema integrado. Esto es importante porque los proyectos locales de IA a menudo combinan lógica de inferencia, orquestación, herramientas, recuperación y adaptación en una única aplicación difícil de reproducir. OpenJarvis, en cambio, intenta darle a cada capa una función más explícita.

Inteligencia: la capa del modelo

La primitiva de Inteligencia es la capa del modelo. Se ubica sobre un conjunto cambiante de familias de modelos locales y proporciona un catálogo de modelos unificado para que los desarrolladores no tengan que realizar un seguimiento manual del recuento de parámetros, el ajuste del hardware o las compensaciones de memoria para cada versión. El objetivo es hacer que la elección del modelo sea más fácil de estudiar por separado de otras partes del sistema, como el backend de inferencia o la lógica del agente.

Motor: tiempo de ejecución de inferencia

La primitiva Motor es el tiempo de ejecución de inferencia. Es una interfaz común en backends como Ollama, vLLM, SGLang, llama.cpp y API en la nube. La capa del motor se enmarca de manera más amplia como ejecución consciente del hardware, donde comandos como jarvis init detectan el hardware disponible y recomiendan una configuración de modelo y motor adecuada, mientras que jarvis doctor ayuda a mantener esa configuración. Para los desarrolladores, esta es una de las partes más prácticas del diseño: el marco no asume un tiempo de ejecución único, sino que trata la inferencia como una capa conectable.

Agentes: la capa de comportamiento

La primitiva Agentes es la capa de comportamiento. Stanford lo describe como la parte que convierte la capacidad del modelo en acción estructurada bajo restricciones reales del dispositivo, como ventanas de contexto limitadas, memoria de trabajo limitada y límites de eficiencia. En lugar de depender de un agente de propósito general, OpenJarvis admite roles componibles. El artículo de Stanford menciona específicamente roles como el Orquestador, que divide las tareas complejas en subtareas, y el Operativo, que pretende ser un ejecutor liviano para flujos de trabajo personales recurrentes. Los documentos también describen el uso del agente como el manejo del indicador del sistema, las herramientas, el contexto, la lógica de reintento y la lógica de salida.

Herramientas y memoria: conexión a tierra del agente

La primitiva Herramientas y Memoria es la capa de conexión a tierra. Esta primitiva incluye soporte para MCP (Protocolo de contexto modelo) para el uso de herramientas estandarizadas, Google A2A para la comunicación de agente a agente e indexación semántica para la recuperación local de notas, documentos y artículos. También es compatible con plataformas de mensajería, webchat y webhooks. También cubre una vista de herramientas más limitada que incluye búsqueda web, acceso a calculadoras, E/S de archivos, interpretación de códigos, recuperación y servidores MCP externos. OpenJarvis no es sólo una interfaz de chat local; Su objetivo es conectar modelos locales con herramientas y un contexto personal persistente manteniendo el almacenamiento y el control locales de forma predeterminada.

Aprendizaje: mejora de circuito cerrado

La quinta primitiva, el aprendizaje, es lo que le da al marco un camino de mejora de circuito cerrado. Los investigadores de Stanford lo describen como una capa que utiliza rastros de interacción local para sintetizar datos de entrenamiento, refinar el comportamiento de los agentes y mejorar la selección de modelos con el tiempo. OpenJarvis admite la optimización en cuatro capas de la pila: pesos del modelo, indicaciones de LM, lógica agente y motor de inferencia. Los ejemplos enumerados por el equipo de investigación incluyen SFT, GRPO, DPO, optimización rápida con DSPy, optimización de agentes con GEPA y ajuste a nivel de motor, como selección de cuantificación y programación por lotes.

La eficiencia como métrica de primera clase

Un punto técnico importante en OpenJarvis es su énfasis en la evaluación consciente de la eficiencia. El marco trata la energía, los FLOP, la latencia y el costo en dólares como limitaciones de primera clase junto con la calidad de la tarea. También hace hincapié en un sistema de telemetría independiente del hardware para generar perfiles de energía en GPU NVIDIA a través de NVML, GPU AMD y Apple Silicon a través de powermetrics, con intervalos de muestreo de 50 ms. El comando jarvis bench está destinado a estandarizar la evaluación comparativa de latencia, rendimiento y energía por consulta. Esto es importante porque la implementación local no se trata sólo de si un modelo puede responder una pregunta, sino también de si puede hacerlo dentro de límites reales de potencia, memoria y tiempo de respuesta.

Interfaces de desarrollador y opciones de implementación

Desde la perspectiva del desarrollador, OpenJarvis expone varios puntos de entrada. Los documentos oficiales muestran una aplicación de navegador, una aplicación de escritorio, un SDK de Python y una CLI. La interfaz basada en navegador se puede iniciar con ./scripts/quickstart.sh, que instala dependencias, inicia Ollama y un modelo local, inicia el backend y el frontend y abre la interfaz de usuario local. La aplicación de escritorio está disponible para macOS, Windows y Linux, y el backend aún se ejecuta en la máquina del usuario. El SDK de Python expone un objeto Jarvis() y métodos como Ask() y Ask_full(), mientras que la CLI incluye comandos como Jarvis Ask, Jarvis Serve, Jarvis Memory Index y Jarvis Memory Search.

Los documentos también afirman que todas las funciones principales funcionan sin una conexión de red, mientras que las API en la nube son opcionales. Para los equipos de desarrollo que crean aplicaciones locales, otra característica práctica es el servicio jarvis, que inicia un servidor FastAPI con transmisión SSE y se describe como un reemplazo directo para los clientes OpenAI. Esto reduce el costo de migración para los desarrolladores que desean crear prototipos en una interfaz en forma de API y al mismo tiempo mantener la inferencia local.

Consulte Repo, Docs y detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.