La base de contexto de la URL de Google: ¿otro clavo en el ataúd de Rag?

En las versiones relacionadas con la IA continúa sin cesar. Hace solo unos días, lanzó una nueva herramienta para Gemini llamada URL Context Eleghing.

La conexión a tierra del contexto de URL se puede usar independientemente o combinarse con la base de la búsqueda de Google para realizar inmersiones profundas en el contenido de Internet.

¿Qué es el contexto de la URL?

En pocas palabras, es una forma de hacer que Gemini lea, comprenda y responda preguntas sobre contenido y datos contenidos en URL web individuales (incluidas las que apuntan a PDF) sin la necesidad de realizar lo que sabemos como procesamiento tradicional de trapo.

En otras palabras, no hay necesidad de extraer el texto y el contenido de la URL, fragmentarlo, vectorizarlo, almacenarlo, etc. Le dice a Google qué URL le interesa y se va. Como verá en un momento, es muy sencillo codificar y muy preciso.

Es por esas razones que dije que podría ser otra uña en el ataúd de Rag.

¿Pero funciona? Veamos un par de ejemplos.

Estableceré mi entorno de desarrollo primero en Ubuntu WSL2 para Windows. Siga o use el método al que esté acostumbrado.

$ uv init url_context
$ cd url_context
$ uv venv url_context
$ uv pip install jupyter
$ uv pip install "google-genai>=1.16.0"

También necesitará una clave de Google API. Si aún no tiene uno, diríjase a Google AI Studio, regístrese si es necesario y configure su llave. El enlace para hacerlo será cerca de la esquina lateral superior derecha de la página del tablero.

Google AI Studio

Ahora, ejecutar este comando debería aparecer una nueva pestaña en su navegador con un cuaderno.

$ jupyter notebook

Algunas limitaciones a tener en cuenta

Antes de continuar con nuestros ejemplos de codificación, existen algunas limitaciones y restricciones sobre el uso de la base de contexto de URL que debe tener en cuenta.

  1. Se puede incluir un máximo de 20 URL por solicitud.
  2. El tamaño máximo para el contenido recuperado de una sola URL es de 34 MB.
  3. Los siguientes tipos de contenido son no compatible
  • Contenido de Paywalled
  • Videos de YouTube
  • Archivos de Google Workspace, como Google Docs o hojas de cálculo
  • Archivos de video y audio

Dicho esto, sigamos con nuestros ejemplos.

Ejemplo 1 – Interrogando un complejo PDF

Mi archivo de datos de prueba de prueba cuando estoy probando RAG o un procesamiento similar contra datos en PDFS es utilizar uno del informe de ganancias trimestrales de 10-Q de Tesla. Es bastante largo en alrededor de 50 páginas y tiene algunos diseños bastante complejos con tablas, etc.

Como es un documento de presentación de la SEC, también significa que está disponible públicamente y es completamente gratuito para usar su contenido.

Si desea echar un vistazo a usted mismo, el documento se puede encontrar en esta URL.

https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf

Para este pdf, la pregunta que siempre planteo es esta,

"What are the Total liabilities and Total assets for 2022 and 2023"

La respuesta a esa pregunta está en la página 4 del documento. Aquí está esa página.

Imagen del documento de presentación de Tesla Sec 10-Q

Para los humanos, la respuesta es fácil de encontrar. Como puede ver, los activos totales para 2022/2023 fueron (en millones) $ 82,338/$ 93,941. Los pasivos totales fueron (en millones) $ 36,440/$ 39,446.

En el pasado (¡es decir, hace unos 18 meses!), Fue difícil obtener esta información de este documento utilizando métodos tradicionales de trapo.

¿Cómo se enfrentará a Google URL Contexting La base?

En su cuaderno Jupyter, escriba este código.

from google import genai
from google.genai import types

from IPython.display import HTML, Markdown

client = genai.Client(api_key='YOUR_API_KEY HERE')

# We can use most of the Gemini models such as 2.5 Flash etc... here 
MODEL_ID = "gemini-2.5-pro"

prompt = """
  Based on the contents of this PDF https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf, What 
  are the Total liabilities and Total assets for 2022 and 2023. Lay them out in this format
                   September 30 2023    December 31, 2022
Total Assets         $123               $456
Total Liabilities    $67                $23

Don't output anything else, just the above information
"""

config = {
    "tools": [{"url_context": {}}],
}

response = client.models.generate_content(
    contents=[prompt],
    model=MODEL_ID,
    config=config
)

display(response.text)

Eso es todo, solo un puñado de líneas, pero veamos la salida.

'September 30 2023 December 31, 2022\nTotal Assets $93,941 $82,338\nTotal Liabilities $39,446 $36,440'

Spot On, no demasiado en mal estado.

Veamos si puede elegir alguna otra información. Cerca del final del PDF, hay una carta a un empleado que está a punto de dejar la empresa que describe sus términos de indemnización. ¿Puede la conexión a tierra del contexto de URL determinar por qué la fecha de salida mencionada en la carta está marcada por asteriscos (***)? Aquí hay un fragmento de la carta.

Imagen del documento de presentación de Tesla Sec 10-Q

La razón del enmascaramiento de la fecha de salida se da en una nota al pie.

Imagen del documento de presentación de Tesla Sec 10-Q

El código que necesitamos para extraer esta información es muy similar a nuestro primer ejemplo. De hecho, lo único que cambia es el aviso, por lo que solo mostraré eso.

...
...
prompt = """
  Based on https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf, an employee severance letter is displayed
  Why is the exit date referred to in the letter marked with ***
"""
...
...

Y la salida?

'Based on the provided document, the exit date in the employee severance 
letter is marked with "[***]" because specific, non-material information 
that the company treats as private or confidential has been intentionally 
omitted from the public filing.\n\nThe document includes a note clarifying 
this practice: "Certain identified information has been omitted from this 
document because it is not material and is the type that the company treats 
as private or confidential, and has been marked with "[***]" to indicate 
where omissions have been made."'

Como puede ver, eso es perfecto una vez más.

¿Cuáles son otros usos para la base del contexto de URL?

En mi opinión, abre una gran cantidad de nuevas oportunidades, que incluyen:-

Análisis de contenido en profundidad y síntesis.

  • Extracción de datos. La herramienta puede extraer información específica, como precios, nombres o hallazgos clave, de múltiples URL.
  • Comparación de documentos. Puede analizar múltiples informes, artículos o incluso PDF para identificar diferencias y rastrear las tendencias.
  • Creación de contenido. Al combinar información de varias URL de origen, la IA puede generar resúmenes, publicaciones de blog o informes precisos. Por ejemplo, un desarrollador podría usar la herramienta para comparar dos recetas de diferentes sitios web, analizando ingredientes y tiempos de cocción.
  • Código y análisis de documentación. Los desarrolladores pueden señalar la IA a un repositorio de GitHub o documentación técnica para explicar el código, generar instrucciones de configuración o responder preguntas específicas al respecto.

Flujos de trabajo de agente sofisticados.

  • La combinación de un amplio descubrimiento a través de la búsqueda de Google y el análisis profundo a través de la herramienta de contexto de URL forma la base de tareas complejas de varios pasos. Un agente de IA primero podría buscar artículos relevantes sobre un tema y luego usar la herramienta de contexto de URL para “leer” profundamente y sintetizar información de los resultados de búsqueda más pertinentes.
  • La Gemini CLI, un agente de IA de código abierto, utiliza la herramienta de contexto de URL para su comando de fetch web. Esto permite a los desarrolladores resumir rápidamente las páginas web, extraer información clave o incluso traducir contenido directamente desde su terminal.

Precisión objetiva mejorada y alucinaciones reducidas.

  • Al fundamentar las respuestas en el contenido de páginas web específicas, la precisión objetiva de la IA aumenta, reduciendo la probabilidad de generar información incorrecta o fabricada. Esto también permite que la IA proporcione citas para sus reclamos, construyendo confianza del usuario al mostrar las fuentes de su información.

Admite una amplia variedad de tipos de contenido.

  • PDFS. La IA puede extraer texto y comprender la estructura de las tablas dentro de los documentos PDF, haciendo que los informes y los manuales sean accesibles para la conexión a tierra.
  • Imágenes. Puede procesar y analizar imágenes en varios formatos (PNG, JPEG, BMP, WebP), aprovechando las capacidades multimodales para comprender los gráficos y los diagramas.
  • Archivos web y de datos. El soporte continuo para los archivos de texto HTML, JSON, XML, CSV y sin formato garantiza una amplia aplicabilidad.

Ejemplo 2 – Realice una comparación de precios

Para nuestro segundo ejemplo, supongamos que estamos buscando un nuevo conjunto de auriculares. Alimentaremos una lista de las URL de varias tiendas en línea que venden el producto en nuestro código y le pediremos al modelo que recupere los tres productos más baratos que cumplan con nuestras especificaciones.

Este ejemplo puede parecer un poco redundante ya que hay muchos sitios web de comparación de compras, pero en realidad está destinado a resaltar los tipos de cosas que puede hacer con la herramienta.

Digamos que queremos comprar un modelo específico de auriculares, por ejemplo, los auriculares Sony WH-000XM5 inalámbricos canceladores de ruido. Hemos identificado tiendas en línea con los precios más competitivos, pero estos precios fluctúan casi a diario. Creemos un script que pueda ejecutarse en cualquier momento para devolver las tiendas con los tres precios más baratos.

Nuevamente, la única diferencia entre este código de ejemplo y el primero es el aviso. El resto del código es el mismo.

prompt = """
  Based on these URL links, output the three cheapest prices for these 
  headphones and the relevant store.
  
  
  https://electronics.sony.com/audio/headphones/headband/p/wh1000xm5-b?srsltid=AfmBOopJmjebTtZEieUvHEf5xEke7C7piVi3BdlSUdTPJH3wuBfTksJy
  https://tristatecamera.com/product/TRI_STATE_CAMERA_Sony_WH-1000XM5_Wireless_Noise-Canceling_Over-Ear_Headphones_Black_1_Yr_WH1000XM5BS2.html?refid=279&KPID=SONWH1000XM5BS2&fl=GSOrganic&srsltid=AfmBOoqnE7vgc1uOELadhkaRlhHuJx3HGRTV5ICN7ihNkFXI_UEuImZ2gXU
  https://poshmark.com/listing/Sony-WH-1000xm5-Headphones-672d0ab515ad54b37949b845#utm_source=gdm_unpaid
  https://reverb.com/item/91492218-sony-wh-1000xm5-wireless-noise-canceling-over-the-ear-headphones-silver?utm_campaign=US-Shop_unpaid&utm_medium=cpc&utm_source=google
  Sony WH-1000XM5 Noise-Canceling Wireless Over-Ear Headphones (Black)
  https://www.newegg.com/p/0TH-000U-00JZ4?item=9SIA29PK9N4805&utm_source=google&utm_medium=organic+shopping&utm_campaign=knc-googleadwords-_-headphones+and+accessories-_-sony-_-9SIA29PK9N4805&source=region&srsltid=AfmBOooONnd3a1lju0DgyhpdXlT1VtUp_skJdsx_uYH1DdHKLWPNe_DWBuY&com_cvv=8fb3d522dc163aeadb66e08cd7450cbbdddc64c6cf2e8891f6d48747c6d56d2c 
"""

Esta vez la salida es.

'Based on the provided URLs, here are the three cheapest prices for the 
Sony WH-1000XM5 headphones:\n\n1.  
**$145.00** at Reverb.\n2. 
**$258.99** at Teds Electronics.\n3.  
**$329.99** at Sony.'

Ejemplo 3 – Análisis financiero y comparaciones de la empresa.

En este ejemplo, compararemos los informes de ganancias del cuarto 2, 2025 de Amazon y Microsoft. Le pediremos al modelo que analice ambos informes, extraiga información clave y concluya con un resumen que indique las fortalezas y estrategias clave de ambas compañías. Los datos se obtienen nuevamente de sus informes públicos de ganancias de la SEC 10-Q.

from google import genai
from google.genai import types

from IPython.display import HTML, Markdown

client = genai.Client(api_key='YOUR_API_KEY_HERE')

MODEL_ID = "gemini-2.5-pro" 

microsoft_earnings_url = "https://www.sec.gov/ix?doc=/Archives/edgar/data/0000789019/000095017025100235/msft-20250630.htm"
amazon_earnings_url = "https://www.sec.gov/ix?doc=/Archives/edgar/data/0001018724/000101872425000086/amzn-20250630.htm"

# --- Step 3: Construct the Detailed, Non-Trivial Prompt ---
# This prompt guides the AI to perform a deep, comparative analysis
# rather than just a simple data extraction.

prompt = f"""
Please act as a senior financial analyst and provide a comparative analysis of the latest quarterly earnings reports for Amazon  and Microsoft.

Access and thoroughly analyse the content from the following two URLs:
1.  **Microsoft Earnings Report:** {microsoft_earnings_url}
2.  **Amazon's Earnings Report:** {amazon_earnings_url}

Based *only* on the information contained within these two documents, please perform the following tasks:

1.  **Extract and Compare Key Financial Metrics:**
    *   Identify and extract the Total Revenue, Net Income, and Diluted Earnings Per Share (EPS) for both companies.
    *   Present these core metrics in a clear, formatted markdown table for easy comparison.

2.  **Analyse and Summarise Management Commentary:**
    *   Review the sections containing quotes from the CEOs (Satya Nadella for Microsoft, Jeff Bezos for Amazon) and CFOs.
    * For each company, write a paragraph summarising the key themes they are emphasising. What are the primary drivers of their performance, according to them? What is the overall tone of their commentary (e.g., optimistic, cautious)?

3.  **Identify and Contrast Strategic Focus:**
    * Pinpoint the specific business segments or product categories that each company highlights as major growth drivers (e.g., Microsoft Cloud and AI, Amazon's AWS services, etc).
    *   Contrast their primary strategic focus for the quarter. Is one more focused on enterprise/cloud, while the other is more focused on consumer hardware and ecosystem growth?

4.  **Synthesise a Conclusive Executive Summary:**
    *   Write a final, concise paragraph that synthesises the findings. Compare the overall health and current strategic posture of the two companies based on these reports. For example, conclude which company demonstrated stronger growth in this specific quarter and in which areas.

Just output your final analysis. There is no need to output intervening steps thopughts or data
"""

config = {
    "tools": [{"url_context": {}}],
}

response = client.models.generate_content(
    contents=[prompt],
    model=MODEL_ID,
    config=config
)

display(Markdown(response.text))

Aquí está la salida.

Here is a comparative analysis of the latest quarterly earnings reports for 
Amazon and Microsoft.

1. Key Financial Metrics
Metric          Amazon (Q2 2025)        Microsoft (FY25 Q2)
Total Revenue   143.7 billion            61 9 billion
Net Income      10.4 billion             21.9 billion 
Diluted EPS     1                        2.94

2. Management Commentary Analysis
Microsoft:

Microsoft's management, led by CEO Satya Nadella, maintains a highly 
optimistic tone, emphasizing the transformative impact of AI on their 
business. Nadella's commentary highlights the "Microsoft Cloud" as a primary 
performance driver, citing its role in helping customers apply AI at scale. 
The company's CFO, Amy Hood, reinforces this by noting that the strong 
quarterly results were driven by the Microsoft Cloud, which saw a 23% increase 
in revenue. The overarching theme from Microsoft's leadership is that their 
investments in AI are not just paying off but are fundamentally reshaping their
product offerings and customer relationships, leading to significant growth 
and market leadership.

Amazon:

Amazon's leadership, including CEO Jeff Bezos, presents a confident and 
forward-looking perspective. The commentary highlights the strong performance 
of Amazon Web Services (AWS) and the company's continued innovation in AI, 
particularly with services like Bedrock and the development of custom AI chips.
Bezos emphasizes the company's focus on long-term, customer-centric innovation.
The overall tone is one of robust optimism, with a clear message that Amazon's 
investments in AI and cloud computing are yielding substantial results and 
will continue to be central to their strategy.

3. Strategic Focus Contrast
Microsoft:

Microsoft's strategic focus for the quarter is heavily centered on its 
enterprise and cloud offerings, with a particular emphasis on artificial 
intelligence. The report repeatedly highlights the "Microsoft Cloud" as the 
cornerstone of its success, with specific mentions of products like Azure, 
Dynamics 365, and Microsoft 365, all of which are being infused with AI 
capabilities. The commentary from CEO Satya Nadella explicitly points to the 
company's success in helping customers apply AI at scale as a key 
differentiator and growth driver.

Amazon:

Amazon's strategic focus, while also heavily invested in cloud and AI through 
AWS, is broader, encompassing its vast e-commerce and consumer-facing 
businesses. The report underscores the growth of AWS, with a notable increase 
in revenue and operating income, and highlights the company's innovation in 
AI with services like Bedrock. However, unlike Microsoft, Amazon's report also 
points to the strength of its consumer business, with a focus on selection, 
price, and convenience, as well as the growth of its advertising services.

4. Executive Summary
Based on their latest quarterly reports, both Microsoft and Amazon are 
demonstrating strong financial health and are strategically positioned to 
capitalize on the growth of cloud computing and artificial intelligence. 
Microsoft's report indicates a more focused strategy, with the "Microsoft 
Cloud" and its integrated AI capabilities serving as the primary engine of 
growth, resulting in impressive profitability. Amazon, while also experiencing 
significant growth in its AWS segment, presents a more diversified strategy, 
balancing its enterprise cloud business with its massive e-commerce and 
advertising operations. In this specific quarter, Microsoft has shown stronger 
growth in net income and EPS, reflecting the high margins of its enterprise 
software and cloud business.

Resumen

El artículo presenta la nueva herramienta de puesta a tierra de contexto de URL de Google para Gemini, que permite a los desarrolladores consultar y analizar el contenido de URL web específicas (incluidos los PDF) directamente, sin pasos de generación de recuperación tradicional (RAG) como extracción de texto, fragmentos y vectores.

Demostré su facilidad de uso con los ejemplos de código de Python que se ejecutan en los cuadernos Jupyter, mostrando una recuperación exitosa de datos del PDF de presentación de 10 SEC de Tesla, comparaciones de precios del producto en tiendas en línea y un análisis financiero de los resultados financieros Q2 2025 Q2 2025 de Amazon y Microsoft.

Al observar limitaciones como la herramienta que no sporta las URL con paredes de pago y algunos contenidos de medios como YouTube VideoAs, destacé su capacidad de realizar interrogaciones de documentos profundos, extracción de datos, comparación y síntesis en una amplia variedad de páginas web y PDF de Opnline, lo que mejora su precisión mediante la base de respuestas en fuentes reales.

Para muchos casos de uso, esta herramienta reemplaza efectivamente los flujos de trabajo de RAG tradicionales, particularmente cuando se combina con la base de la búsqueda de Google para permitir flujos de trabajo de agente más sofisticados, confiabilidad objetiva y análisis de contenido multimodal.

Espero que este artículo haya despertado su apetito por la gran cantidad de casos de uso que esta útil utilidad puede ofrecer.