Una implementación de codificación de raspado web con Firecrawl y resumen con AI utilizando Google Gemini

El rápido crecimiento del contenido web presenta un desafío para extraer y resumir eficientemente información relevante. En este tutorial, demostramos cómo aprovechar Piloto Para el raspado web y el proceso de los datos extraídos utilizando modelos de IA como Google Gemini. Al integrar estas herramientas en Google Colab, creamos un flujo de trabajo de extremo a extremo que raspa las páginas web, recupera contenido significativo y genera resúmenes concisos que utilizan modelos de idiomas de última generación. Ya sea que desee automatizar la investigación, extraer información de los artículos o construir aplicaciones con AI, este tutorial proporciona una solución robusta y adaptable.

!pip install google-generativeai firecrawl-py

Primero, instalamos Google-Generativeai Firecrawl-Py, que instala dos bibliotecas esenciales necesarias para este tutorial. Google-GenerativeAi proporciona acceso a la API Gemini de Google para la generación de texto con IA, mientras que Firecrawl-Py permite el raspado web obteniendo contenido de las páginas web en un formato estructurado.

import os
from getpass import getpass


# Input your API keys (they will be hidden as you type)
os.environ["FIRECRAWL_API_KEY"] = getpass("Enter your Firecrawl API key: ")

Luego establecemos de forma segura la tecla API Firecrawl como una variable de entorno en Google Colab. Utiliza GetPass () para solicitar al usuario la tecla API sin mostrarla, asegurando la confidencialidad. Almacenar la clave en OS.environ permite una autenticación perfecta para las funciones de raspado web de Firecrawl a lo largo de la sesión.

from firecrawl import FirecrawlApp


firecrawl_app = FirecrawlApp(api_key=os.environ["FIRECRAWL_API_KEY"])


target_url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
result = firecrawl_app.scrape_url(target_url)
page_content = result.get("markdown", "")
print("Scraped content length:", len(page_content))

Inicializamos Firecrawl creando una instancia de FirecrawlApp usando la tecla API almacenada. Luego raspa el contenido de una página web especificada (en este caso, la página del lenguaje de programación de Python de Wikipedia) y extrae los datos en formato Markdown. Finalmente, imprime la longitud del contenido raspado, lo que nos permite verificar la recuperación exitosa antes del procesamiento posterior.

import google.generativeai as genai
from getpass import getpass


# Securely input your Gemini API Key
GEMINI_API_KEY = getpass("Enter your Google Gemini API Key: ")
genai.configure(api_key=GEMINI_API_KEY)

Inicializamos la API de Google Gemini capturando de forma segura la tecla API usando getPass (), evitando que se muestre en texto plano. El comando Genai.configure (API_KEY = GEMINI_API_KEY) establece el cliente API, permitiendo una interacción perfecta con la IA Gemini de Google para tareas de generación de texto y resumen. Esto garantiza una autenticación segura antes de realizar solicitudes al modelo AI.

for model in genai.list_models():
    print(model.name)

Iteramos a través de los modelos disponibles en Google Gemini API usando Genai.list_models () e imprimimos sus nombres. Esto ayuda a los usuarios a verificar a qué modelos se puede acceder con su clave API y seleccionar la apropiada para tareas como la generación o resumen de texto. Si no se encuentra un modelo, este paso ayuda a depurar y elegir una alternativa.

model = genai.GenerativeModel("gemini-1.5-pro")
response = model.generate_content(f"Summarize this:\n\n{page_content[:4000]}")
print("Summary:\n", response.text)

Finalmente, inicializamos el modelo Gemini 1.5 Pro utilizando Genai.Generativemodel (“Gemini-1.5-Pro”) envía una solicitud para generar un resumen del contenido raspado. Limita el texto de entrada a 4.000 caracteres para permanecer dentro de las limitaciones de API. El modelo procesa la solicitud y devuelve un resumen conciso, que luego se imprime, proporcionando una descripción general estructurada y generada por IA del contenido de la página web extraída.

En conclusión, al combinar Firecrawl y Google Gemini, hemos creado una tubería automatizada que raspa el contenido web y genera resúmenes significativos con un esfuerzo mínimo. Este tutorial mostró múltiples soluciones con AI, lo que permite flexibilidad basada en la disponibilidad de API y las limitaciones de cuotas. Ya sea que esté trabajando en aplicaciones de PNL, automatización de la investigación o agregación de contenido, este enfoque permite la extracción y resumen de datos eficientes a escala.


Aquí está el Cuaderno de colab. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Conozca a Parlant: un marco de IA conversacional LLM de LLM diseñado para proporcionar a los desarrolladores el control y la precisión que necesitan sobre sus agentes de servicio al cliente de IA, utilizando pautas de comportamiento y supervisión de tiempo de ejecución. 🔧a 🎛️ Se funciona utilizando una CLI fácil de usar 📟 y SDK de clientes nativos en Python y TypeScript 📦.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.