Conozca OpenJarvis: un marco local para agentes de IA personales en el dispositivo con herramientas, memoria y aprendizaje

Investigadores de la Universidad de Stanford y Lambda Labs publicaron un artículo de investigación para OpenJarvis, un marco de código abierto que ejecuta inferencia, agentes, memoria y aprendizaje completamente en el dispositivo.

Los modelos de peso abierto configurados a través de OpenJarvis se ubican dentro de 3,2 puntos porcentuales del mejor modelo de nube en promedio, con aproximadamente 800 veces menos costo API marginal por consulta y aproximadamente 4 veces menos latencia según el protocolo de referencia de la investigación. Este trabajo de investigación se basa en el estudio anterior de Inteligencia por vatio del equipo de investigación, que informó que los modelos locales ya manejan el 88,7% de las consultas de razonamiento y chat de un solo turno con latencia interactiva, y la eficiencia de la inteligencia mejoró 5,3 veces entre 2023 y 2025.

Descripción general y acceso al modelo

OpenJarvis no es un modelo único. Es un marco que compone cualquier modelo compatible con una pila de agentes configurable, evaluado en 11 modelos locales de cuatro familias.

PropertyValueLicenseLanzamiento de Apache 2.0Framework 12 de marzo de 2026PaperarXiv:2605.17172 (publicado el 16 de mayo de 2026)Repositorygithub.com/open-jarvis/OpenJarvisStars / forks~5.4k / ~1.2k (junio de 2026)IdiomasPython (~83%), Rust (~9%), TypeScript (~7%)Modelos evaluados11 modelos locales en 4 familias: Qwen3.5, Gemma4, Nemotron, líneas base GraniteCloudClaude Opus 4.6, GPT-5.4, Gemini 3.1 ProMotores compatiblesOllama, vLLM, SGLang, llama.cpp, Apple Foundation Models, Exo (entre otros)Ventana de contextoDependiente del modeloInstalaciónComando único; ~3 minutos en banda anchaHardwareProbado en 7 plataformas, desde Mac Mini M4 hasta NVIDIA DGX Spark

Arquitectura: cinco primitivos y una especificación

OpenJarvis descompone un sistema de IA personal en cinco primitivas tipificadas, compuestas a través de un único objeto de configuración declarativo llamado especificación.

Inteligencia: el modelo, los pesos, los parámetros de generación y el formato de cuantificación. Motor: tiempo de ejecución de inferencia (Ollama, vLLM, SGLang, etc.), procesamiento por lotes, configuración de caché KV y ruta de hardware. Agentes: el circuito de razonamiento (ReAct o CodeAct), indicaciones del sistema, política de uso de herramientas y límites de turno. Herramientas y memoria: interfaces externas, backends de recuperación, más de 25 conectores de datos y más de 32 canales de mensajería, con soporte nativo de MCP y backends de memoria intercambiables. Aprendizaje: el optimizador que actualiza la especificación a partir de los seguimientos. Esta ranura acepta búsqueda de especificaciones guiada por LoRA, DSPy, GEPA o LLM.

Cada primitiva se puede intercambiar de forma independiente y una especificación serializa las cinco en un archivo TOML. Dos especificaciones pueden compartir la misma configuración de agente y herramienta y diferir sólo en el modelo y el motor, por lo que el mismo comportamiento se ejecuta en una Mac Mini y una estación de trabajo sin necesidad de reescribir mensajes.

La búsqueda de especificaciones guiada por LLM es la segunda contribución. Es una colaboración local-nube: un modelo de nube fronteriza actúa como maestro en el momento de la búsqueda, leyendo rastros, diagnosticando grupos de fallas y proponiendo ediciones en Inteligencia, Motor, Agentes y Herramientas y Memoria. Se acepta una edición solo si mejora el grupo de fallas objetivo sin causar regresiones significativas en otros lugares; el equipo de investigación llama a esto la puerta (tolerancia predeterminada del 1%). Luego, la especificación optimizada se ejecuta completamente en el dispositivo en el momento de la inferencia, sin llamadas a la nube. El profesor se utiliza sólo en el momento de la búsqueda; con 100 consultas por día, el costo amortizado del docente cae por debajo de $0,001 por consulta dentro de seis meses.

El trabajo anterior (GEPA, DSPy, LoRA) optimiza una primitiva a la vez, y los optimizadores rápidos por sí solos recuperan solo alrededor de 5 puntos porcentuales de la brecha entre la nube y la ubicación local. La búsqueda de especificaciones guiada por LLM recupera entre 13 y 32 páginas porque edita primitivas de forma conjunta, con un costo de optimización entre 7 y 11 veces menor que las líneas de base de una sola primitiva. El espacio de movimiento de cuatro primitivos contribuye entre 5,5 y 16,5 pp, y el proponente del LLM agrega alrededor de 10 pp en promedio durante una búsqueda evolutiva en el mismo espacio de movimiento.

https://arxiv.org/pdf/2605.17172v1

Capacidades y rendimiento

OpenJarvis se evaluó en 8 puntos de referencia que abarcan 508 tareas: llamada de herramientas (ToolCall-15), flujos de trabajo agentes (PinchBench), codificación (LiveCodeBench), servicio al cliente (τ-Bench V2, τ²-Bench Telecom), asistencia general (GAIA) e investigación profunda (LiveResearchBench, DeepResearchBench).

La prueba de intercambio: reemplazar el modelo de nube previsto con Qwen3.5-9B en los marcos existentes (OpenClaw, Hermes Agent) reduce la precisión entre 25 y 39 pp. Con el mismo modelo bajo una especificación OpenJarvis, la caída residual se reduce a 5,6-16,5 pp, recuperando entre el 56 y el 77 % de la pérdida de portabilidad.

La frontera de la precisión: el mejor modelo local único, Qwen3.5-122B, alcanza una precisión promedio del 80,3% frente a Claude Opus 4.6 con un 83,5%, una diferencia de 3,2 puntos porcentuales. Las especificaciones locales coinciden o superan la nube en 4 de 8 puntos de referencia: ToolCall-15, PinchBench, LiveCodeBench y τ-Bench V2.

Costo y latencia: las configuraciones locales forman la frontera precisión-eficiencia. Qwen3.5-122B ofrece su 80,3% a aproximadamente una milésima de centavo por consulta, frente a $0,009 por consulta para Claude Opus 4.6, una ventaja marginal de costo de API de aproximadamente 800 veces. La latencia de un extremo a otro se reduce aproximadamente a 4 veces en las cargas de trabajo agentes, aunque las indicaciones en papel pueden favorecer el servicio en la nube.

Ganancias de búsqueda: la búsqueda de especificaciones guiada por LLM mejora al estudiante Qwen3.5-9B al 100 % en PinchBench, al 83 % en LiveCodeBench y al 91 % en LiveResearchBench. En todo el conjunto de ocho puntos de referencia, las ganancias promedio por modelo de estudiante oscilan entre 13,1 y 31,5 pp. Los autores informan que estas ganancias sobreviven a sus comprobaciones de solidez (variantes de ponderación de recompensa, varianza de la semilla de búsqueda y reinicios aleatorios).

Cómo usarlo

La instalación es un comando. En macOS, Linux o WSL2:

curl -fsSL https://open-jarvis.github.io/OpenJarvis/install.sh | intento

Los usuarios de Windows ejecutan un script de PowerShell equivalente (irm… | iex). El instalador proporciona uv, un entorno virtual Python, Ollama y un modelo inicial en aproximadamente tres minutos en banda ancha. Una GUI de escritorio se envía como .dmg, .exe, .deb, .rpm o .AppImage desde la página de lanzamientos.

Después de la instalación, jarvis inicia una sesión de chat. Los ajustes preestablecidos iniciales cubren flujos de trabajo comunes:

jarvis init –preset Morning-digest-mac # sesión informativa diaria con TTS jarvis init –preset deep-research # investigación de múltiples saltos con citas jarvis init –preset code-assistant # agente con ejecución de código y acceso al shell jarvis init –preset programming-monitor # agente con estado en un horario

El marco se envía con ocho agentes integrados en tres modos de ejecución: bajo demanda, programado y continuo. Se conecta a más de 25 fuentes de datos (Gmail, Calendar, iMessage, Notion, Obsidian, Slack, GitHub y otros) y expone a los agentes en más de 32 canales de mensajería (WhatsApp, Telegram, Discord, iMessage, Signal y otros).

Las habilidades se pueden importar desde catálogos externos (unas 150 de Hermes Agent y unas 13.700 habilidades comunitarias de OpenClaw), todas siguiendo la especificación de agenteskills.io. Un comando jarvis optimiza las habilidades: la política dspy las refina a partir del historial de seguimiento local.

Explicador visual de Marktechpost

OpenJarvis · Stanford

01 / 07

Stanford · Hazy Research + Laboratorio de inteligencia escalable

AbiertoJarvis

Un marco de código abierto y local para agentes personales de IA que ejecutan inferencia, agentes, memoria y aprendizaje completamente en el dispositivo.

A 3,2 pp de la mejor nube
~800 veces menor costo API marginal
~4 veces menor latencia

Apache 2.0 • arXiv:2605.17172 • Framework lanzado el 12 de marzo de 2026

que es

IA personal que se ejecuta su hardware

La mayoría de las IA “personales” todavía enrutan todas las consultas a través de una API en la nube. OpenJarvis hace que lo local sea primero el valor predeterminado y llama a la nube solo cuando es necesario, aprovechando la inteligencia por vatio del equipo y descubriendo que los modelos locales ya manejan el 88,7% de las consultas de un solo turno.

Licenciaapache 2.0

Repositoriogithub.com/open-jarvis/OpenJarvis

Modelos11 modelos locales · 4 familias
Qwen3.5, Gemma4, Nemotron, Granito

motoresOllama, vLLM, SGLang, llama.cpp, Apple FM, Exo

Arquitectura

Cinco primitivos, una especificación

Un sistema de IA personal se descompone en cinco primitivos tipificados e intercambiables de forma independiente, compuestos a través de una única especificación declarativa serializada en TOML portátil.

Inteligencia: modelo, pesos, parámetros de generación, cuantificación Motor: tiempo de ejecución de inferencia, procesamiento por lotes, caché KV, ruta de hardware Agentes: bucle de razonamiento (ReAct o CodeAct), indicaciones, política de herramientas Herramientas y memoria: más de 25 conectores, más de 32 canales, MCP nativo Aprendizaje: ranura del optimizador: LoRA, DSPy, GEPA o búsqueda de especificaciones

método clave

guiado por LLM búsqueda de especificaciones

Un modelo de nube fronteriza actúa como maestro en el momento de la búsqueda: lee rastros, diagnostica grupos de fallas y propone ediciones entre primitivas. Una puerta sólo acepta ediciones que no sean regresivas. Luego, la especificación optimizada se ejecuta completamente en el dispositivo: cero llamadas a la nube en el momento de la inferencia.

13–32 págs.de la brecha nube-local cerrada

7–11×menor costo de optimización frente a líneas base de primitiva única

El espacio de movimiento de cuatro primitivos agrega entre 5,5 y 16,5 puntos; el proponente del LLM agrega ~10 pp sobre la búsqueda evolutiva en el mismo espacio de movimiento.

Actuación

Cerca de la nube, mucho más barato

3,2 páginasbrecha: Qwen3.5-122B 80,3% frente a Claude Opus 4.6 83,5%

4/8puntos de referencia donde los partidos locales o vencen a la nube

Iguala/supera la nube en ToolCall-15, PinchBench, LiveCodeBench, τ-Bench V2 ~800 veces menor costo marginal de API; ~4 veces menor latencia (protocolo del artículo) Prueba de intercambio: una caída de 25 a 39 pp se reduce a 5,6 a 16,5 pp según una especificación (56 a 77 % recuperado)

Experiencia de desarrollador

De cero a un agente en minutos

Un comando proporciona uv, un entorno virtual Python, Ollama y un modelo inicial (~3 minutos en banda ancha):

curl -fsSL https://open-jarvis.github.io/OpenJarvis/install.sh | Bash 8 agentes integrados en modos bajo demanda, programados y continuos Más de 25 conectores de datos · Más de 32 canales de mensajería Habilidades a través de agenteskills.io: ~150 de Hermes Agent, ~13,700 de OpenClaw

El resultado final

Una plataforma de investigación y una base de producción

OpenJarvis intercambia aproximadamente 3,2 puntos porcentuales de precisión (la brecha que se concentra en tareas de razonamiento e investigación intensas) por importantes ganancias en costos, latencia y privacidad. La inferencia, el estado del agente y la memoria permanecen en el dispositivo por construcción; el profesor en la nube es opcional y está limitado.

Advertencias: los resultados promedian 5 ejecuciones por configuración, use GPT-5-mini como juez y se ejecutaron en una sola máquina. Apache 2.0 y mantenido activamente: construido, en palabras de los autores, “en el espíritu de PyTorch” para la IA local.

Conclusiones clave

OpenJarvis ejecuta inferencia, agentes, memoria y aprendizaje completamente en el dispositivo, a 3,2 pp del mejor modelo de nube con un costo API marginal ~800 veces menor y una latencia ~4 veces menor. Una “especificación” escrita descompone la pila en cinco primitivos intercambiables (Inteligencia, Motor, Agentes, Herramientas y Memoria, y Aprendizaje) serializados en TOML portátil. La búsqueda de especificaciones guiada por LLM utiliza un modelo de nube fronteriza como maestro de tiempo de búsqueda para recuperar entre 13 y 32 puntos porcentuales de la brecha entre la nube y la ubicación local con un costo de optimización entre 7 y 11 veces menor, luego se ejecuta localmente sin llamadas a la nube. Las especificaciones locales coinciden o superan la nube en 4 de 8 puntos de referencia (ToolCall-15, PinchBench, LiveCodeBench, τ-Bench V2); la brecha restante se concentra en tareas intensas de razonamiento e investigación.

Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros