ahora forman parte del trabajo normal de desarrollo.
Mucha gente los usa a través de modelos alojados en la nube, ya que es conveniente y se pueden usar modelos muy capaces.
Pero cuando se trata de control de costos, o si no desea enviar su código a la nube por cuestiones de privacidad, o está experimentando y desea comprender mejor cómo funciona realmente la pila de agentes, es posible que desee probar una configuración local.
De esto se trata esta publicación. Aquí, configuraremos un agente de codificación local con tres piezas:
Ollama, por servir al modelo; Gemma 4, como LLM local; OpenCode, como interfaz del agente.
Al final, tendremos OpenCode conectado a un LLM local.
1. Instalar Ollama
Empezamos instalando Ollama, que dará servicio al modelo Gemma 4 de forma local.
Si no lo ha usado antes, Ollama es un tiempo de ejecución para descargar, ejecutar y servir modelos en idiomas locales desde su propia máquina. Una vez configurado, Ollama expone un punto final API local. De esta manera, otras herramientas (por ejemplo, OpenCode) pueden comunicarse directamente con el modelo.
En máquinas con Windows, puedes hacerlo desde el instalador oficial:
https://ollama.com/download
Alternativamente, también puedes instalarlo desde PowerShell usando winget:
instalación de alas Ollama.Ollama
Después de la instalación, debería poder ver Ollama desde el menú Inicio de Windows. Puedes iniciarlo como cualquier otra aplicación. Una vez que se esté ejecutando, debería ver el ícono de Ollama en la bandeja del sistema, y esto significa que el servicio local de Ollama se está ejecutando en segundo plano.
Además, puede abrir una nueva ventana de PowerShell y comprobar si la CLI de Ollama está disponible:
ollama –versión
Si está en una máquina Linux, puede instalar Ollama con:
“curl ‒fsSL https://ollama.com/install.sh | sh”
Después de la instalación, verifique si Ollama está disponible:
ollama –versión
Una vez instalado Ollama, ejecuta un servidor local en su máquina. Más tarde, OpenCode se comunicará con este servidor local de Ollama en lugar de llamar a un proveedor de modelo de nube.
2. Descargar Gemma 4
A continuación, preparamos un LLM local. Para esta publicación, usaremos Gemma 4.
Gemma 4 es un nuevo modelo abierto lanzado por Google el 2 de abril de 2026. Este modelo está diseñado para razonamiento, codificación, comprensión multimodal y flujos de trabajo agentes.
Viene en varios tamaños, incluidas variantes más pequeñas orientadas a los bordes y variantes más grandes orientadas a las estaciones de trabajo. Dado que esta publicación trata sobre ejecutar el modelo localmente en una computadora portátil, configuraremos las variantes amigables con el borde, es decir, las variantes E2B (gemma4:e2b) y E4B (gemma4:e4b).
En la denominación de Ollama, la E significa parámetros “efectivos”.
Para este tutorial, utilizo el modelo E4B ya que ofrece más capacidad. En PowerShell:
ollama jala gemma4:e4b
En Linux, use el mismo comando:
ollama jala gemma4:e4b
Puedes consultar el modelo descargado:
lista de ollama
En mi máquina, Ollama informa lo siguiente:
gemma4:e4b 9.6 GB
Como referencia, mi computadora portátil tiene una CPU Intel i7-13800H, 32 GB de RAM y una GPU para computadora portátil NVIDIA RTX 2000 Ada con aproximadamente 8 GB de VRAM. Puedes elegir gemma4:e2b en su lugar si E4B se siente demasiado lento.
Algunas notas técnicas aquí. La versión de gemma4:e4b que descargamos anteriormente es un modelo cuantificado de 4 bits, con GGUF como formato de modelo local utilizado por los tiempos de ejecución de Ollama. En mi máquina, Ollama informa que gemma4:e4b admite soportes con una longitud de contexto de 128K.
Antes de pasar al siguiente paso, podemos hacer una prueba rápida:
ollama run gemma4:e4b “¿cuál es la capital de Francia?”
Si recuperas “Paris”, felicidades, Gemma 4 ahora está disponible en tu máquina local a través de Ollama.
Tenga en cuenta que la primera llamada puede ser lenta porque Ollama tiene que cargar el modelo. Una vez que el modelo esté caliente, las siguientes indicaciones deberían responder más rápido.
3. Instalar código abierto
A continuación, necesitamos una interfaz de agente. Usaremos OpenCode para eso.
Si ha utilizado herramientas como Claude Code o Codex, OpenCode pertenece a la misma categoría amplia. Puede considerarlo como un tiempo de ejecución de agente que puede operar dentro de un repositorio local, inspeccionar archivos, ejecutar comandos y realizar diversas tareas.
Una diferencia importante que nos importa es que OpenCode es de código abierto e independiente de los proveedores de LLM. Puede conectarlo a modelos en la nube (por ejemplo, modelos Claude/GPT/Gemini), o puede conectarlo a un modelo local atendido por Ollama.
Eso es exactamente lo que haremos aquí.
Si está en una máquina con Windows, primero deberá instalar Node.js. Puedes hacerlo a través de:
Instalación de Winget OpenJS.NodeJS.LTS
En Linux, puedes hacer:
sudo apt actualizar sudo apt instalar -y nodejs npm
Después de la instalación, debe abrir una nueva ventana de PowerShell y verificar si tanto el nodo como npm están disponibles:
nodo –versión npm –versión
Ahora podemos instalar OpenCode:
instalación npm -g código abierto-ai
Luego verifique la instalación:
código abierto –versión
En este punto, OpenCode está instalado. Simplemente puede iniciar la TUI interactiva OpenCode (UI de terminal) desde cualquier carpeta de proyecto ejecutando:
código abierto
4. Conecte OpenCode a Gemma 4
Por defecto, OpenCode no sabe qué modelo queremos usar. Por tanto, hay que señalar el modelo Gemma 4, servido por Ollama.
Primero creemos una etiqueta de modelo Ollama con la ventana de contexto completa (128K) habilitada. Esto es importante porque queremos asegurarnos de que el agente pueda funcionar correctamente sin que se trunque en contexto.
Podemos hacerlo con un pequeño Ollama Modelfile. Específicamente, podemos crear un archivo llamado gemma4-e4b-128k.Modelfile en la carpeta/repositorio con el que queremos trabajar:
DE gemma4:e4b PARÁMETRO num_ctx 131072
Luego, en la línea de comando, creamos una nueva etiqueta Ollama de la siguiente manera:
ollama crea gemma4:e4b-128k -f gemma4-e4b-128k.Modelfile
Algo a señalar: ¡esto no provocaría la descarga de un nuevo modelo! Simplemente crea un perfil de Ollama que usa el mismo modelo Gemma 4 E4B, pero establece explícitamente la ventana de contexto de tiempo de ejecución en 128K.
Ok, podemos proceder a conectar OpenCode al modelo Gemma 4. Para eso, necesitamos crear un archivo opencode.json en la carpeta del proyecto:
{ “$schema”: “https://opencode.ai/config.json”, “provider”: { “ollama”: { “npm”: “@ai-sdk/openai-compatible”, “name”: “Ollama (local)”, “options”: { “baseURL”: “http://localhost:11434/v1” }, “models”: { “gemma4:e4b-128k”: { “name”: “Gemma 4 E4B 128K” } } } }, “modelo”: “ollama/gemma4:e4b-128k” }
Dos piezas importantes aquí:
Primero, OpenCode habla con Ollama a través del punto final local compatible con OpenAI de Ollama:
http://localhost:11434/v1
En segundo lugar, tenga en cuenta que configuramos el nombre del modelo siguiendo el formato de proveedor/modelo de OpenCode:
ollama/gemma4:e4b-128k
Utiliza nuestra etiqueta de modelo recién creada arriba.
Ahora, si inicia OpenCode desde la misma carpeta del proyecto a través de:
código abierto
Deberías ver gemma4:e4b-128k en la lista.
¡Ya estamos todos preparados!
5. ¿Qué puedes hacer con esta configuración?
Con OpenCode TUI iniciado, puede probar su configuración pidiéndole al agente que realice algunas tareas. Por ejemplo, puede pedirle al agente que escriba un archivo README, explique funciones específicas, cree scripts de prueba, etc.
De hecho, más allá de la codificación, también puede pedirle al agente que realice muchas tareas del espacio de trabajo, como manipulación de archivos, extracción de contenido, etc.
OpenCode también le brinda espacio para hacer crecer la configuración. También puede conectar herramientas al agente, instalar habilidades del agente con SKILL.md y definir agentes especializados con AGENTS.md.
Además, puedes ejecutar tareas desde la línea de comando con:
opencode ejecuta “Resumir este repositorio”.
Para un uso más programático, OpenCode también puede ejecutarse como servidor, por lo que la TUI no es la única interfaz.
Y aquí está lo más importante: todos tus datos permanecen completamente locales.
Puede encontrar documentos OpenCode relevantes aquí:
CLI: https://opencode.ai/docs/cli/
Habilidades: https://opencode.ai/docs/skills/
MCP: https://opencode.ai/docs/mcp-servers/
Modo servidor: https://opencode.ai/docs/server/
Referencia
[1] Documentación de Gemma: https://ai.google.dev/gemma/docs
[2] Documentación de Ollama: https://docs.ollama.com/
[3] Documentación de OpenCode: https://opencode.ai/docs/