Creación de una búsqueda semántica de libros: escale un proceso de integración con Apache Spark y AWS EMR Serverless | de Eva Revear

Uso del modelo Clip de OpenAI para admitir la búsqueda en lenguaje natural en una colección de 70.000 portadas de libros

en un Publicación anterior Hice una pequeña prueba de concepto para ver si podía usar el modelo Clip de OpenAI para crear una búsqueda semántica de libros. En mi opinión, funcionó sorprendentemente bien, pero no pude evitar preguntarme si sería mejor con más datos. La versión anterior utilizaba sólo unos 3,5 mil libros, pero hay millones en la Conjunto de datos de biblioteca abiertay pensé que valía la pena intentar agregar más opciones al espacio de búsqueda.

Sin embargo, el conjunto de datos completo es de aproximadamente 40 GB, y tratar de manejar esa cantidad de datos en mi pequeña computadora portátil, o incluso en una computadora portátil Colab, fue demasiado, por lo que tuve que encontrar una canalización que pudiera administrar el filtrado e incrustar un conjunto de datos más grande. .

TLDR; ¿Mejoró la búsqueda? ¡Creo que sí! Hemos multiplicado 15 los datos, lo que le da a la búsqueda mucho más con qué trabajar. No es perfecto, pero pensé que los resultados fueron bastante interesantes; aunque no he realizado una medida de precisión formal.

Este fue un ejemplo que no pude poner a trabajar sin importar cómo lo expresé en la última iteración, pero funciona bastante bien en la versión con más datos.

Si tienes curiosidad puedes probarlo en colaboración!

En general, fue un viaje técnico interesante, con muchos obstáculos y oportunidades de aprendizaje a lo largo del camino. La pila tecnológica todavía incluye el modelo OpenAI Clip, pero esta vez aprovecho Apache Spark y AWS EMR para ejecutar el proceso de integración.

Esta parecía una buena oportunidad para usar Spark, ya que nos permite paralelizar el cálculo de incrustación.

Decidí ejecutar la canalización en EMR Serverless, que es una oferta de AWS bastante nueva que proporciona un entorno sin servidor para EMR y administra los recursos de escalamiento automáticamente. Sentí que funcionaría bien para este caso de uso, en lugar de poner en marcha un EMR en el clúster EC2, porque este es un proyecto bastante ad hoc, estoy paranoico con los costos del clúster e inicialmente no estaba seguro de qué recursos usaría el trabajo. requeriría. EMR Serverless hace que sea bastante fácil experimentar con los parámetros del trabajo.

A continuación se muestra el proceso completo por el que pasé para que todo estuviera en funcionamiento. Me imagino que hay mejores formas de gestionar ciertos pasos, esto es justo lo que terminó funcionando para mí, así que si tienes ideas u opiniones, ¡compártelas!

Creación de un trabajo de canalización de incorporación con Spark

El paso inicial fue escribir los trabajos de Spark. El proceso completo se divide en dos etapas: la primera toma el conjunto de datos inicial y filtra la ficción reciente (dentro de los últimos 10 años). Esto resultó en alrededor de 250.000 libros y alrededor de 70.000 con imágenes de portada disponibles para descargar e insertar en la segunda etapa.

Primero extraemos las columnas relevantes del archivo de datos sin procesar.

Creación de una búsqueda semántica de libros: escale un proceso de integración con Apache Spark y AWS EMR Serverless | de Eva Revear | enero de 2024

ByEquipo de 7 minutos

Uso del modelo Clip de OpenAI para admitir la búsqueda en lenguaje natural en una colección de 70.000 portadas de libros

Creación de un trabajo de canalización de incorporación con Spark

Configurar la base de datos de vectores

Configurar la canalización en AWS

Conclusión

By Equipo de 7 minutos

Related Post

Cómo ajustar LFM2 usando QLoRA y DPO: un tutorial completo de codificación paso a paso en Google Colab

El código es barato. El criterio de ingeniería es ahora el recurso escaso

Cómo Baz mejoró la precisión de la revisión del código del agente de IA utilizando Amazon Bedrock AgentCore

You missed

Un microbio intestinal común puede ayudar a prevenir la recuperación de peso, según un estudio: ScienceAlert

La Corte Suprema revoca la supremacía del tribunal inferior en Alabama

Cómo la extrema derecha española lucha por definir qué es ser español

Blog de chismes deportivos n.° 1 en el mundo