Conozca WebBrain: un agente de navegador de IA local y de código abierto que lee páginas y automatiza tareas en Chrome y Firefox

WebBrain es un agente de navegador gratuito y de código abierto para Chrome y Firefox. Lee páginas, extrae datos y automatiza tareas de varios pasos. A diferencia de la mayoría de los complementos de inteligencia artificial del navegador, también puede ejecutarse completamente en un modelo local.

Está construido por Emre Sokullu y tiene licencia del MIT. La fuente completa se encuentra en GitHub.

Ejecute el agente contra un modelo local y ningún dato de página saldrá de su máquina. Conecte una API en la nube cuando desee más capacidad.

¿Qué es WebBrain?

WebBrain se encuentra en el panel lateral de su navegador. En Chrome utiliza Manifest V3 y la API sidePanel. En Firefox usa Manifest V2 y sidebar_action. Cada pestaña mantiene su propio historial de conversaciones.

La extensión opera dentro de su sesión autenticada existente. Ve sus cuentas iniciadas exactamente como usted. No almacena datos externamente y no agrega telemetría ni cuentas.

El complemento se envía en inglés, español, francés, turco y 中文. Detecta automáticamente el idioma de su navegador en el primer inicio.

Modo preguntar, modo actuar y cómo se activan realmente las acciones

WebBrain tiene dos modos: el modo Preguntar es de solo lectura y no puede cambiar la página. El modo de acción puede hacer clic, escribir, desplazarse, navegar y ejecutar flujos de trabajo.

El modo Preguntar lee páginas a través de scripts de contenido ordinarios. El modo de acción es diferente. Dirige la página a través del protocolo Chrome DevTools a través de la API chrome.debugger. Eso produce eventos de entrada confiables que los sitios modernos realmente respetan. También llega a iframes de orígenes cruzados y DOM ocultos que los scripts de contenido no pueden ver.

Ese poder tiene un alcance deliberado. WebBrain adjunta el depurador solo cuando una acción lo necesita, por pestaña. Chrome muestra su banner estándar “WebBrain comenzó a depurar este navegador” mientras está adjunto. Firefox no tiene un equivalente CDP, por lo que su modo Act es significativamente más débil.

Las temperaturas son fijas para mayor previsibilidad. El modo Act utiliza una temperatura de 0,15. El modo Ask usa 0.3. Las descripciones de captura de pantalla de visión dedicada utilizan 0.

El modelo de seguridad

Los agentes del navegador se ejecutan en una superficie adversa. Las páginas web pueden ocultar inyecciones rápidas que secuestran el comportamiento de un agente. El diseño de WebBrain aborda esto directamente.

El agente se inicia en modo Preguntar de solo lectura. Se pregunta antes de acciones consecuentes. Puede desactivar esas indicaciones en la configuración de Permisos. Están activados de forma predeterminada.

También existe una regla de UI primero para las mutaciones. Para cualquier cosa que cree, envíe, envíe o compre, WebBrain utiliza la interfaz de usuario visible. Se niega a llamar directamente a los puntos finales REST o GraphQL para detectar mutaciones. Existe una anulación por conversación /allow-api cuando la interfaz de usuario realmente falla.

La lectura se trata por separado. Para obtener un archivo README o comparar precios se utiliza HTTP en segundo plano a través de las herramientas fetch_url y research_url. La lectura no cambia nada ni remotamente, por lo que no se aplican reglas estrictas.

Casos de uso, con ejemplos concretos

La extracción de datos es la más obvia: abra un catálogo y pregunte: “Extraiga todos los nombres y precios de los productos de esta página”. El agente lee la estructura y devuelve filas. También funciona con archivos PDF. Los resúmenes de investigación son otra: pregunte “Resumir este artículo” y luego continúe con una pregunta específica. WebBrain detecta los muros de pago de forma honesta y no intenta eludirlos. También descarta los anuncios comunes de consentimiento de cookies antes de leerlos. El llenado de formularios se adapta a los registros repetitivos: un autocompletado de perfil opcional almacena una breve biografía en texto plano local. Ese texto se envía a su LLM configurado para completar formularios de bajo riesgo. Mantenga las contraseñas importantes fuera de él. La automatización abarca varios pasos: intente ‘Navegar a github.com y encontrar repositorios de tendencias’. En el modo Act, el agente encadena navegación, lecturas y clics.

Mantener bajos los costos de los tokens

Los tokens de nube se acumulan en sesiones largas. WebBrain limita el coste de tres formas.

Las capturas de pantalla cambian de tamaño y se comprimen iterativamente en JPEG antes de salir de su máquina. Eso mantiene los tokens de imagen pequeños. El historial de conversaciones y los resultados de las herramientas se recortan primero a medida que se llena la ventana contextual. También puede combinar un modelo de texto económico para la planificación con un modelo de visión independiente para capturas de pantalla.

Cómo se compara

WebBrain se encuentra entre los complementos de inteligencia artificial del navegador y los marcos completos de agentes. Aquí está la comparación de complementos, extraída de la documentación del propio proyecto.

CaracterísticaWebBrainClaude en ChromeCódigo abiertoLicencia MITPropietarioPrecioGratis para siempreRequiere Claude Pro ($20/mes)Soporte de LLM localllama.cpp, OllamaNo — Solo ClaudeMultiproveedorTodos los puntos finales compatibles con OpenAISolo ClaudeChromeSí (MV3)SíFirefoxSí (MV2)NoInterfaz de usuario del panel lateralSíSíModos de preguntar/actuarSíSimilarCompletamente fuera de líneaSí (con LLM local)No — se requiere nubeAutohospedableSíNo

Los marcos como OpenClaw o Browser-Use son una categoría diferente. Esos son SDK de desarrollador para canalizaciones sin cabeza. WebBrain es una extensión para el usuario final que se maneja desde un panel de chat. Puedes usar ambos.

Ejecutándolo: proveedores y configuración

WebBrain admite modelos locales y en la nube a través de una interfaz. Las opciones locales incluyen llama.cpp, Ollama, LM Studio, Jan, vLLM y SGLang. Las opciones de nube incluyen OpenAI, Anthropic Claude, Gemini, Mistral, DeepSeek y xAI Grok. También es compatible con Groq, MiniMax, Alibaba Cloud (Qwen), Nvidia NIM y OpenRouter.

Una opción administrada integrada, WebBrain Cloud, no necesita configuración local. Cuesta $5 por mes por perfil de dispositivo según una política de uso justo. Para uso local, llama.cpp no necesita clave API.

Iniciar un servidor local requiere un comando:

# llama.cpp: cargue al menos una ventana de contexto de 16k token llama-server -m your-model.gguf -c 16384 –port 8080 # Ollama (compatible con OpenAI): configure el entorno de origen de extensión var OLLAMA_ORIGINS=”*” ollama server # luego configure la URL base en http://localhost:11434/v1 en la configuración

Apunte WebBrain al punto final en la configuración. Para un servidor vLLM entre máquinas, habilite CORS con –allowed-origins ‘[“*”]’.

El modelo recomendado es Qwen 3.6 35B (Qwen3.6-35B-A3B). Superó a Gemma 4 en el punto de referencia de captura de pantalla del proyecto. Un RTX 5090 es ideal; un RTX 4090 funciona con cuantización INT4 AutoRound.

Cada proveedor es una clase que extiende BaseLLMProvider. Se normaliza a una forma de respuesta:

{ contenido: cadena, llamadas a herramientas: matriz|nulo, uso: objeto|nulo }

Conclusiones clave

WebBrain es un agente de navegador de IA gratuito con licencia del MIT para Chrome y Firefox, creado por Emre Sokullu. Se ejecuta en modelos locales (llama.cpp, Ollama; se recomienda Qwen 3.6 35B) o cualquier API en la nube: ningún dato de página sale de su máquina cuando es local. El modo Preguntar lee páginas de sólo lectura; El modo Act hace clic y escribe a través del protocolo Chrome DevTools para eventos de entrada confiables. La seguridad es lo primero por diseño: inicia el modo de solo lectura, aprueba acciones consecuentes y utiliza la interfaz de usuario en lugar de llamadas directas a la API para mutaciones. Gratis para siempre, autohospedado o $5/mes por perfil de dispositivo para WebBrain Cloud administrado bajo uso justo.

Conozca WebBrain: un agente de navegador de IA local y de código abierto que lee páginas y automatiza tareas en Chrome y Firefox

ByEquipo de 7 minutos

¿Qué es WebBrain?

Modo preguntar, modo actuar y cómo se activan realmente las acciones

El modelo de seguridad

Casos de uso, con ejemplos concretos

Mantener bajos los costos de los tokens

Cómo se compara

Ejecutándolo: proveedores y configuración

Conclusiones clave

Explicador interactivo con demostración

Demostración-1

By Equipo de 7 minutos

Related Post

Interfaze lanza diffusion-gemma-asr-small, un modelo ASR de difusión de código abierto que transcribe seis idiomas a través del decodificador de eliminación de ruido paralelo de DiffusionGemma

Tutorial de RAG-Anything: cree una canalización de recuperación multimodal para texto, tablas, ecuaciones e imágenes en Colab

Diseñe bucles, no indicaciones | Hacia la ciencia de datos

You missed

Los índices del euro alcanzan máximos históricos a medida que el empleo en EE.UU. impacta los precios

Sánchez saluda plan migratorio mientras solicitudes superan el millón – The Leader

Los arqueólogos descubren nueva historia de la Batalla de Bunker Hill, la primera gran batalla de la Revolución Americana

El premio Nobel Omar Yaghi lanza una red científica mundial