El raspado web y la extracción de datos son cruciales para transformar el contenido web no estructurado en ideas procesables. Firecrawl Playground optimiza este proceso con una interfaz fácil de usar, lo que permite a los desarrolladores y profesionales de datos explorar y obtener una vista previa de las respuestas de API a través de varios métodos de extracción fácilmente. En este tutorial, caminamos por las cuatro características principales de Patio de fuego: URL simple (raspado), rastreo, mapa y extracto, destacando sus funcionalidades únicas.
Raspe de URL individual
En el modo URL único, los usuarios pueden extraer contenido estructurado de páginas web individuales proporcionando una URL específica. La vista previa de respuesta dentro del patio de juegos Firecrawl ofrece una representación JSON concisa, que incluye metadatos esenciales como el título de la página, la descripción, el contenido principal, las imágenes y las fechas de publicación. El usuario puede evaluar fácilmente la estructura y la calidad de los datos devueltos por este método de raspado de una sola página. Esta característica es útil para los casos en los que se requieren datos enfocados y precisos de páginas individuales, como artículos de noticias, páginas de productos o publicaciones de blog.
El usuario accede al patrón Firecrawl e ingresa a la URL www.marktechpost.com en la pestaña URL (/rasguño) única. Seleccionan el modelo Fire-1 y escriben el aviso: “Consígueme todos los artículos en la página de inicio”. Esto establece el agente de Firecrawl para recuperar contenido estructurado de la página de inicio de MarkTechPost utilizando un enfoque de extracción con motor LLM.
El resultado del raspado de una sola página se muestra en una vista de Markdown. Extrae con éxito los enlaces a varias secciones, como el “procesamiento del lenguaje natural”, “agentes de IA”, “nuevos lanzamientos” y más, desde la página de inicio de MarkTechPost. Debajo de estos enlaces, también se muestra un titular del artículo de muestra con texto introductorio, lo que indica un análisis de contenido preciso.
Gatear
El modo Crawl expande significativamente las capacidades de extracción al permitir el recorrido automático a través de múltiples páginas web interconectadas a partir de una URL dada. Dentro de la vista previa del patio de recreo, los usuarios pueden examinar rápidamente las respuestas del rastreo inicial, observando resúmenes con formato JSON del contenido de la página junto con las URL descubiertas durante el rastreo. La función Crawl maneja efectivamente tareas de extracción más amplias, incluida la recuperación de contenido integral de sitios web completos, páginas de categorías o artículos de varias partes. Los usuarios se benefician de la capacidad de evaluar la profundidad de rastreo, los límites de la página y los detalles de respuesta a través de esta funcionalidad de vista previa.
En la pestaña Crawl (/Crawl), el mismo sitio ( www.marktechpost.com ) se usa. El usuario establece un límite de rastreo de 10 páginas y configura los filtros de ruta para excluir páginas como “blog” o “acerca de”, al tiempo que incluye solo URL en la ruta “/Artículos/”. Las opciones de página se personalizan para extraer solo el contenido principal, evitando etiquetas como scripts, anuncios y pies de página, optimizando así el rastreo de información relevante.
La plataforma muestra resultados para 10 páginas raspadas de MarkTechPost. Cada mosaico en la cuadrícula de resultados presenta contenido extraído de diferentes secciones, como “contenido patrocinado”, “tablero SLD” y “enlace de incrustación”. Cada página tiene pestañas de respuesta de Markdown y JSON, que ofrece flexibilidad en cómo se ve o procesa el contenido extraído.
Mapa
La función MAP presenta un mecanismo de extracción avanzado mediante la aplicación de asignaciones definidas por el usuario a través de datos rastreados. Permite a los usuarios especificar estructuras de esquemas personalizadas, como extraer fragmentos de texto particulares, nombres de autores o descripciones de productos detalladas de varias páginas simultáneamente. La vista previa del patio de juegos ilustra claramente cómo se aplican las reglas de mapeo, presentando datos extraídos en un formato JSON perfectamente estructurado. Los usuarios pueden confirmar rápidamente la precisión de sus asignaciones y garantizar que el contenido extraído se alinee con precisión con sus requisitos analíticos. Esta característica optimiza significativamente los flujos de trabajo de extracción de datos complejos que requieren consistencia en múltiples páginas web.
En la pestaña Map (/Map), el usuario nuevamente se dirige www.marktechpost.com Pero esta vez usa la función de búsqueda (beta) con la palabra clave “blog”. Las opciones adicionales incluyen habilitar las búsquedas de subdominios y respetar el mapa del sitio del sitio. Este modo tiene como objetivo recuperar una gran cantidad de URL relevantes que coinciden con el patrón de búsqueda.
La operación de mapeo devuelve un total de 5000 URL coincidentes del sitio web de MarkTechPost. Estos incluyen enlaces a categorías y artículos bajo temas como IA, aprendizaje automático, gráficos de conocimiento y otros. Los enlaces se muestran en una lista estructurada, con la opción de ver los resultados como JSON o descargarlos para su posterior procesamiento.
Actualmente disponible en Beta, la característica de extracto refina aún más las capacidades de Firecrawl al facilitar la recuperación de datos personalizada a través de esquemas de extracción avanzados. Con el extracto, los usuarios diseñan patrones de extracción altamente granulares, como aislar puntos de datos específicos, incluidos metadatos del autor, especificaciones detalladas del producto, información de precios o marcas de tiempo de publicación. La vista previa del extracto del patio de juegos muestra respuestas de API en tiempo real que reflejan esquemas definidos por el usuario, proporcionando comentarios inmediatos sobre la precisión e integridad de la extracción. Como resultado, los usuarios pueden iterar y ajustar las reglas de extracción sin problemas, asegurando la precisión y la relevancia de los datos.
En la pestaña Extracto (/extracto) (beta), el usuario ingresa a la URL https://marktechpost.com y define un esquema de extracción personalizado. Se especifican dos campos: Company_mission como una cadena e IS_OPEN_SOURCE como boolean. El rápido guía la extracción para ignorar detalles como socios o integraciones, centrándose en su lugar en la misión de la compañía y si es de código abierto.
La salida JSON formateada final muestra que MarktechPost se identifica como una plataforma de código abierto, y su misión se extrae con precisión: “Proporcionar las últimas noticias e ideas en el campo de la inteligencia y la tecnología artificial, centrándose en investigaciones, tutoriales y desarrollos de la industria”.
En conclusión, Firecrawl Playground proporciona un entorno robusto y fácil de usar que simplifica significativamente las complejidades de la extracción de datos web. A través de vistas previas intuitivas de las respuestas de API en la URL única, rastreo, mapa y extraer modos, los usuarios pueden validar y optimizar sin esfuerzo sus estrategias de extracción. Ya sea que trabaje con páginas web aisladas o ejecutando esquemas de extracción intrincados y de múltiples capas en sitios enteros, Firecrawl Playgrowgrol en el patio de juegos empodera a los profesionales de datos con herramientas poderosas y versátiles esenciales para una recuperación de datos web efectiva y precisa.
Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.