En este tutorial, aprenderemos cómo aprovechar el poder de un agente de IA impulsado por el navegador por completo dentro de Google Colab. Utilizaremos el motor Chromium sin cabeza de dramaturgo, junto con las abstracciones de agente de alto nivel de la biblioteca y navegación de la biblioteca de navegación, para navegar programáticamente, extraer datos y automatizar flujos de trabajo complejos. Envolveremos el modelo Gemini de Google a través del conector Langchain_Google_genai para proporcionar un razonamiento y la toma de decisiones de lenguaje natural, asegurado por el secreto de Pydantic para el manejo seguro de la tecla API. Con GetPass administrando credenciales, asyncio orquestando la ejecución sin bloqueo y el soporte .env opcional a través de Python-Dotenv, esta configuración le dará una plataforma de agente interactiva de extremo a extremo sin dejar su entorno de cuaderno.
!apt-get update -qq
!apt-get install -y -qq chromium-browser chromium-chromedriver fonts-liberation
!pip install -qq playwright python-dotenv langchain-google-generative-ai browser-use
!playwright install
Primero actualizamos las listas de paquetes del sistema e instalamos cromo sin cabeza, su WebDriver y las fuentes de liberación para habilitar la automatización del navegador. Luego instala a Playwright junto con Python-Dotenv, el conector Langchain GoogleGenerativeai y el uso del navegador, y finalmente descarga los binarios del navegador necesarios a través de la instalación del dramaturgo.
import os
import asyncio
from getpass import getpass
from pydantic import SecretStr
from langchain_google_genai import ChatGoogleGenerativeAI
from browser_use import Agent, Browser, BrowserContextConfig, BrowserConfig
from browser_use.browser.browser import BrowserContext
Traemos los servicios públicos Core Python, el sistema operativo para la gestión del medio ambiente y el Asyncio para la ejecución asíncrona, además de GetPass y el secretstrtr de Pydantic para la entrada y el almacenamiento seguros de la tecla API. Luego carga el contenedor Gemini de Langchain (chatGoogleGenerativeai) y el BROWSER_USE Toolkit (agente, navegador, browsercontextconfig, browserconfig y browsercontext) para configurar y conducir un agente de navegador sin cabeza.
os.environ["ANONYMIZED_TELEMETRY"] = "false"
Desactivamos los informes de uso anónimo estableciendo la variable Anonymized_Telemetry en el entorno a “Falso”, asegurando que ni el dramaturgo ni la biblioteca BROWSER_USE devuelvan los datos de telemetría a sus mantenedores.
async def setup_browser(headless: bool = True):
browser = Browser(config=BrowserConfig(headless=headless))
context = BrowserContext(
browser=browser,
config=BrowserContextConfig(
wait_for_network_idle_page_load_time=5.0,
highlight_elements=True,
save_recording_path="./recordings",
)
)
return browser, context
Este ayudante asíncrono inicializa una instancia de navegador sin cabeza (o encabezada) y la envuelve en un texto de navegación configurado para esperar las cargas de la página del I -Icle, resaltar visualmente los elementos durante las interacciones y guardar una grabación de cada sesión en ./recordings. Luego devuelve tanto el navegador como su contexto listo para usar para las tareas de su agente.
async def agent_loop(llm, browser_context, query, initial_url=None):
initial_actions = [{"open_tab": {"url": initial_url}}] if initial_url else None
agent = Agent(
task=query,
llm=llm,
browser_context=browser_context,
use_vision=True,
generate_gif=False,
initial_actions=initial_actions,
)
result = await agent.run()
return result.final_result() if result else None
Este ayudante de asíncrono encapsula un ciclo de “pensar y -browse”: gira a un agente configurado con su LLM, el contexto del navegador y la pestaña URL inicial opcional, aprovecha la visión cuando está disponible y deshabilita la grabación GIF. Una vez que llame a Agent_Lloop, ejecuta el agente a través de sus pasos y devuelve el resultado final del agente (o ninguno si no se produce nada).
async def main():
raw_key = getpass("Enter your GEMINI_API_KEY: ")
os.environ["GEMINI_API_KEY"] = raw_key
api_key = SecretStr(raw_key)
model_name = "gemini-2.5-flash-preview-04-17"
llm = ChatGoogleGenerativeAI(model=model_name, api_key=api_key)
browser, context = await setup_browser(headless=True)
try:
while True:
query = input("\nEnter prompt (or leave blank to exit): ").strip()
if not query:
break
url = input("Optional URL to open first (or blank to skip): ").strip() or None
print("\n🤖 Running agent…")
answer = await agent_loop(llm, context, query, initial_url=url)
print("\n📊 Search Results\n" + "-"*40)
print(answer or "No results found")
print("-"*40)
finally:
print("Closing browser…")
await browser.close()
await main()
Finalmente, esta coroutina principal impulsa toda la sesión de Colab: solicita de forma segura para su clave de API Gemini (usando GetPass y Secretstr), configura el chatGoogleGenerativeAiAi LLM y un contexto de navegador de dramaturgo sin cabeza, luego ingresa a un bucle interactivo donde lee sus indicaciones de lenguaje natural (y opcional Start Url), invoca el agente de agente, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los agentes, el agente de los browser. Imprime los resultados y finalmente asegura que el navegador cierra limpiamente.
En conclusión, siguiendo esta guía, ahora tiene una plantilla de Colab reproducible que integra la automatización del navegador, el razonamiento LLM y la gestión de credenciales segura en una sola tubería cohesiva. Ya sea que esté raspando los datos del mercado en tiempo real, resumiendo los artículos de noticias o la interfaz Gemini de Langchain, la combinación de dramaturgo, navegador, y la interfaz Gemini de Langchain proporcionan una base flexible para su próximo proyecto a IA. Siéntase libre de extender las capacidades del agente, la grabación de GIF reenable, agregar pasos de navegación personalizados o intercambiar en otros backends de LLM para adaptar el flujo de trabajo con precisión a sus necesidades de investigación o producción.
Aquí está el Cuaderno de colab. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.