Investigadores de la Universidad de Stanford y Lambda Labs publicaron un artículo de investigación para OpenJarvis, un marco de código abierto que ejecuta inferencia, agentes, memoria y aprendizaje completamente en el dispositivo.
Los modelos de peso abierto configurados a través de OpenJarvis se ubican dentro de 3,2 puntos porcentuales del mejor modelo de nube en promedio, con aproximadamente 800 veces menos costo API marginal por consulta y aproximadamente 4 veces menos latencia según el protocolo de referencia de la investigación. Este trabajo de investigación se basa en el estudio anterior de Inteligencia por vatio del equipo de investigación, que informó que los modelos locales ya manejan el 88,7% de las consultas de razonamiento y chat de un solo turno con latencia interactiva, y la eficiencia de la inteligencia mejoró 5,3 veces entre 2023 y 2025.
Descripción general y acceso al modelo
OpenJarvis no es un modelo único. Es un marco que compone cualquier modelo compatible con una pila de agentes configurable, evaluado en 11 modelos locales de cuatro familias.
Arquitectura: cinco primitivos y una especificación
OpenJarvis descompone un sistema de IA personal en cinco primitivas tipificadas, compuestas a través de un único objeto de configuración declarativo llamado especificación.
Inteligencia: el modelo, los pesos, los parámetros de generación y el formato de cuantificación. Motor: tiempo de ejecución de inferencia (Ollama, vLLM, SGLang, etc.), procesamiento por lotes, configuración de caché KV y ruta de hardware. Agentes: el circuito de razonamiento (ReAct o CodeAct), indicaciones del sistema, política de uso de herramientas y límites de turno. Herramientas y memoria: interfaces externas, backends de recuperación, más de 25 conectores de datos y más de 32 canales de mensajería, con soporte nativo de MCP y backends de memoria intercambiables. Aprendizaje: el optimizador que actualiza la especificación a partir de los seguimientos. Esta ranura acepta búsqueda de especificaciones guiada por LoRA, DSPy, GEPA o LLM.
Cada primitiva se puede intercambiar de forma independiente y una especificación serializa las cinco en un archivo TOML. Dos especificaciones pueden compartir la misma configuración de agente y herramienta y diferir sólo en el modelo y el motor, por lo que el mismo comportamiento se ejecuta en una Mac Mini y una estación de trabajo sin necesidad de reescribir mensajes.
La búsqueda de especificaciones guiada por LLM es la segunda contribución. Es una colaboración local-nube: un modelo de nube fronteriza actúa como maestro en el momento de la búsqueda, leyendo rastros, diagnosticando grupos de fallas y proponiendo ediciones en Inteligencia, Motor, Agentes y Herramientas y Memoria. Se acepta una edición solo si mejora el grupo de fallas objetivo sin causar regresiones significativas en otros lugares; el equipo de investigación llama a esto la puerta (tolerancia predeterminada del 1%). Luego, la especificación optimizada se ejecuta completamente en el dispositivo en el momento de la inferencia, sin llamadas a la nube. El profesor se utiliza sólo en el momento de la búsqueda; con 100 consultas por día, el costo amortizado del docente cae por debajo de $0,001 por consulta dentro de seis meses.
El trabajo anterior (GEPA, DSPy, LoRA) optimiza una primitiva a la vez, y los optimizadores rápidos por sí solos recuperan solo alrededor de 5 puntos porcentuales de la brecha entre la nube y la ubicación local. La búsqueda de especificaciones guiada por LLM recupera entre 13 y 32 páginas porque edita primitivas de forma conjunta, con un costo de optimización entre 7 y 11 veces menor que las líneas de base de una sola primitiva. El espacio de movimiento de cuatro primitivos contribuye entre 5,5 y 16,5 pp, y el proponente del LLM agrega alrededor de 10 pp en promedio durante una búsqueda evolutiva en el mismo espacio de movimiento.
Capacidades y rendimiento
OpenJarvis se evaluó en 8 puntos de referencia que abarcan 508 tareas: llamada de herramientas (ToolCall-15), flujos de trabajo agentes (PinchBench), codificación (LiveCodeBench), servicio al cliente (τ-Bench V2, τ²-Bench Telecom), asistencia general (GAIA) e investigación profunda (LiveResearchBench, DeepResearchBench).
La prueba de intercambio: reemplazar el modelo de nube previsto con Qwen3.5-9B en los marcos existentes (OpenClaw, Hermes Agent) reduce la precisión entre 25 y 39 pp. Con el mismo modelo bajo una especificación OpenJarvis, la caída residual se reduce a 5,6-16,5 pp, recuperando entre el 56 y el 77 % de la pérdida de portabilidad.
La frontera de la precisión: el mejor modelo local único, Qwen3.5-122B, alcanza una precisión promedio del 80,3% frente a Claude Opus 4.6 con un 83,5%, una diferencia de 3,2 puntos porcentuales. Las especificaciones locales coinciden o superan la nube en 4 de 8 puntos de referencia: ToolCall-15, PinchBench, LiveCodeBench y τ-Bench V2.
Costo y latencia: las configuraciones locales forman la frontera precisión-eficiencia. Qwen3.5-122B ofrece su 80,3% a aproximadamente una milésima de centavo por consulta, frente a $0,009 por consulta para Claude Opus 4.6, una ventaja marginal de costo de API de aproximadamente 800 veces. La latencia de un extremo a otro se reduce aproximadamente a 4 veces en las cargas de trabajo agentes, aunque las indicaciones en papel pueden favorecer el servicio en la nube.
Ganancias de búsqueda: la búsqueda de especificaciones guiada por LLM mejora al estudiante Qwen3.5-9B al 100 % en PinchBench, al 83 % en LiveCodeBench y al 91 % en LiveResearchBench. En todo el conjunto de ocho puntos de referencia, las ganancias promedio por modelo de estudiante oscilan entre 13,1 y 31,5 pp. Los autores informan que estas ganancias sobreviven a sus comprobaciones de solidez (variantes de ponderación de recompensa, varianza de la semilla de búsqueda y reinicios aleatorios).
Cómo usarlo
La instalación es un comando. En macOS, Linux o WSL2:
Los usuarios de Windows ejecutan un script de PowerShell equivalente (irm… | iex). El instalador proporciona uv, un entorno virtual Python, Ollama y un modelo inicial en aproximadamente tres minutos en banda ancha. Una GUI de escritorio se envía como .dmg, .exe, .deb, .rpm o .AppImage desde la página de lanzamientos.
Después de la instalación, jarvis inicia una sesión de chat. Los ajustes preestablecidos iniciales cubren flujos de trabajo comunes:
El marco se envía con ocho agentes integrados en tres modos de ejecución: bajo demanda, programado y continuo. Se conecta a más de 25 fuentes de datos (Gmail, Calendar, iMessage, Notion, Obsidian, Slack, GitHub y otros) y expone a los agentes en más de 32 canales de mensajería (WhatsApp, Telegram, Discord, iMessage, Signal y otros).
Las habilidades se pueden importar desde catálogos externos (unas 150 de Hermes Agent y unas 13.700 habilidades comunitarias de OpenClaw), todas siguiendo la especificación de agenteskills.io. Un comando jarvis optimiza las habilidades: la política dspy las refina a partir del historial de seguimiento local.
Explicador visual de Marktechpost
OpenJarvis · Stanford
01 / 07
Stanford · Hazy Research + Laboratorio de inteligencia escalable
AbiertoJarvis
Un marco de código abierto y local para agentes personales de IA que ejecutan inferencia, agentes, memoria y aprendizaje completamente en el dispositivo.
A 3,2 pp de la mejor nube
~800 veces menor costo API marginal
~4 veces menor latencia
que es
IA personal que se ejecuta su hardware
La mayoría de las IA “personales” todavía enrutan todas las consultas a través de una API en la nube. OpenJarvis hace que lo local sea primero el valor predeterminado y llama a la nube solo cuando es necesario, aprovechando la inteligencia por vatio del equipo y descubriendo que los modelos locales ya manejan el 88,7% de las consultas de un solo turno.
Licenciaapache 2.0
Repositoriogithub.com/open-jarvis/OpenJarvis
Modelos11 modelos locales · 4 familias
Qwen3.5, Gemma4, Nemotron, Granito
motoresOllama, vLLM, SGLang, llama.cpp, Apple FM, Exo
Arquitectura
Cinco primitivos, una especificación
Un sistema de IA personal se descompone en cinco primitivos tipificados e intercambiables de forma independiente, compuestos a través de una única especificación declarativa serializada en TOML portátil.
Inteligencia: modelo, pesos, parámetros de generación, cuantificación Motor: tiempo de ejecución de inferencia, procesamiento por lotes, caché KV, ruta de hardware Agentes: bucle de razonamiento (ReAct o CodeAct), indicaciones, política de herramientas Herramientas y memoria: más de 25 conectores, más de 32 canales, MCP nativo Aprendizaje: ranura del optimizador: LoRA, DSPy, GEPA o búsqueda de especificaciones
método clave
guiado por LLM búsqueda de especificaciones
Un modelo de nube fronteriza actúa como maestro en el momento de la búsqueda: lee rastros, diagnostica grupos de fallas y propone ediciones entre primitivas. Una puerta sólo acepta ediciones que no sean regresivas. Luego, la especificación optimizada se ejecuta completamente en el dispositivo: cero llamadas a la nube en el momento de la inferencia.
13–32 págs.de la brecha nube-local cerrada
7–11×menor costo de optimización frente a líneas base de primitiva única
Actuación
Cerca de la nube, mucho más barato
3,2 páginasbrecha: Qwen3.5-122B 80,3% frente a Claude Opus 4.6 83,5%
4/8puntos de referencia donde los partidos locales o vencen a la nube
Iguala/supera la nube en ToolCall-15, PinchBench, LiveCodeBench, τ-Bench V2 ~800 veces menor costo marginal de API; ~4 veces menor latencia (protocolo del artículo) Prueba de intercambio: una caída de 25 a 39 pp se reduce a 5,6 a 16,5 pp según una especificación (56 a 77 % recuperado)
Experiencia de desarrollador
De cero a un agente en minutos
Un comando proporciona uv, un entorno virtual Python, Ollama y un modelo inicial (~3 minutos en banda ancha):
curl -fsSL https://open-jarvis.github.io/OpenJarvis/install.sh | Bash 8 agentes integrados en modos bajo demanda, programados y continuos Más de 25 conectores de datos · Más de 32 canales de mensajería Habilidades a través de agenteskills.io: ~150 de Hermes Agent, ~13,700 de OpenClaw
El resultado final
Una plataforma de investigación y una base de producción
OpenJarvis intercambia aproximadamente 3,2 puntos porcentuales de precisión (la brecha que se concentra en tareas de razonamiento e investigación intensas) por importantes ganancias en costos, latencia y privacidad. La inferencia, el estado del agente y la memoria permanecen en el dispositivo por construcción; el profesor en la nube es opcional y está limitado.
Conclusiones clave
OpenJarvis ejecuta inferencia, agentes, memoria y aprendizaje completamente en el dispositivo, a 3,2 pp del mejor modelo de nube con un costo API marginal ~800 veces menor y una latencia ~4 veces menor. Una “especificación” escrita descompone la pila en cinco primitivos intercambiables (Inteligencia, Motor, Agentes, Herramientas y Memoria, y Aprendizaje) serializados en TOML portátil. La búsqueda de especificaciones guiada por LLM utiliza un modelo de nube fronteriza como maestro de tiempo de búsqueda para recuperar entre 13 y 32 puntos porcentuales de la brecha entre la nube y la ubicación local con un costo de optimización entre 7 y 11 veces menor, luego se ejecuta localmente sin llamadas a la nube. Las especificaciones locales coinciden o superan la nube en 4 de 8 puntos de referencia (ToolCall-15, PinchBench, LiveCodeBench, τ-Bench V2); la brecha restante se concentra en tareas intensas de razonamiento e investigación.
Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros