En este tutorial, demostramos cómo construir un sistema de interacción PDF con AI en Google Colab usando Gemini Flash 1.5, PymupDF y la API AI generativa de Google. Al aprovechar estas herramientas, podemos cargar sin problemas un PDF, extraer su texto y hacer preguntas interactivamente, recibiendo respuestas inteligentes del último modelo Gemini Flash 1.5 de Google.
!pip install -q -U google-generativeai PyMuPDF python-dotenv
Primero instalamos las dependencias necesarias para construir un sistema de PDF de PDF con IA en Google Colab. Google-Generativeai proporciona acceso a Gemini Flash 1.5, lo que permite interacciones del lenguaje natural, mientras que PymUpDF (también conocido como FITZ) permite una extracción de texto eficiente de los PDF. Además, Python-Dotenv ayuda a administrar las variables de entorno, como las claves API, de forma segura dentro del cuaderno.
from google.colab import files
uploaded = files.upload()
Subimos archivos desde su dispositivo local a Google Colab. Cuando se ejecuta, abre un diálogo de selección de archivos, lo que le permite elegir un archivo (por ejemplo, un PDF) para cargar. El archivo cargado se almacena en un objeto similar a un diccionario (cargado), donde las claves representan los nombres y valores de los archivos contienen los datos binarios del archivo. Este paso es esencial para procesar directamente documentos, conjuntos de datos o pesos de modelos en un entorno de Colab.
import fitz
def extract_pdf_text(pdf_path):
doc = fitz.open(pdf_path)
full_text = ""
for page in doc:
full_text += page.get_text()
return full_text
pdf_file_path="/content/Paper.pdf"
document_text = extract_pdf_text(pdf_path=pdf_file_path)
print("Document text extracted!")
print(document_text[:1000])
Utilizamos PymUpDF (FITZ) para extraer texto de un archivo PDF en Google Colab. La función extract_pdf_text (PDF_PATH) lee el PDF, itera a través de sus páginas y recupera el contenido de texto. El texto extraído se almacena luego en Docum_Text, con los primeros 1000 caracteres impresos para obtener una vista previa del contenido. Este paso es crucial para habilitar el análisis basado en texto y la respuesta de preguntas impulsadas por la IA desde los PDF.
import os
os.environ["GOOGLE_API_KEY"] = 'Use your own API key here'
Establecemos la clave de Google API como una variable de entorno en Google Colab. Se requiere la clave API para autenticar las solicitudes a Google Generation AI, lo que permite el acceso a Gemini Flash 1.5 para el procesamiento de texto con IA. Reemplazar ‘Use su propia clave API aquí’ con una clave válida asegura que el modelo pueda generar respuestas de forma segura dentro del cuaderno.
import google.generativeai as genai
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
model_name = "models/gemini-1.5-flash-001"
def query_gemini_flash(question, context):
model = genai.GenerativeModel(model_name=model_name)
prompt = f"""
Context: {context[:20000]}
Question: {question}
Answer:
"""
response = model.generate_content(prompt)
return response.text
pdf_text = extract_pdf_text("/content/Paper.pdf")
question = "Summarize the key findings of this document."
answer = query_gemini_flash(question, pdf_text)
print("Gemini Flash Answer:")
print(answer)
Finalmente, configuramos y consultamos Gemini Flash 1.5 usando un documento PDF para la generación de texto con IA. Inicializa la biblioteca Genai con la tecla API y carga el modelo Gemini Flash 1.5 (Gemini-1.5-Flash-001). La función Query_Gemini_Flash () toma una pregunta y extraída el texto PDF como entrada, formula un mensaje estructurado y recupera una respuesta generada por IA. Esta configuración permite el resumen de documentos automatizado y las preguntas y respuestas inteligentes de PDFS.
En conclusión, después de este tutorial, hemos creado con éxito un sistema de interacción basado en PDF interactivo en Google Colab usando Gemini Flash 1.5, PymupDF y la API de AI generativa de Google. Esta solución permite a los usuarios extraer información de PDF y consultarlos de manera interactiva fácilmente. La combinación de los modelos de IA de vanguardia de Google y el entorno basado en la nube de Colab proporciona una forma poderosa y accesible de procesar documentos grandes sin requerir recursos computacionales pesados.
Aquí está el Cuaderno de colab. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro Subreddit de 80k+ ml.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.