RAG multimodal: explicación intuitiva y exhaustiva | por Daniel Warfield | Jul, 2024

Inteligencia artificial | Recuperación Generación aumentada | Multimodalidad

RAG moderno para modelos modernos.

10 minutos de lectura

Hace 19 horas

“Multicolored Team” de Daniel Warfield con Midjourney. Todas las imágenes son del autor a menos que se especifique lo contrario. Artículo publicado originalmente en Explicado de forma intuitiva y exhaustiva.

La recuperación multimodal de generación aumentada es un paradigma de diseño emergente que permite que los modelos de IA interactúen con almacenes de texto, imágenes, videos y más.

Para explorar este tema, primero abordaremos qué es la generación aumentada por recuperación (RAG), la idea de multimodalidad y cómo se combinan ambas para crear sistemas RAG multimodales modernos. Una vez que comprendamos los conceptos fundamentales de la RAG multimodal, crearemos un sistema RAG multimodal nosotros mismos utilizando Google Gemini y un modelo de estilo CLIP para la codificación.

¿Para quién es útil esto? ¿Cualquier persona interesada en la IA moderna?

¿Qué tan avanzada es esta publicación? Aunque el RAG multimodal está a la vanguardia de la IA, es intuitivamente simple y accesible. Este artículo debería resultar interesante para investigadores de IA experimentados, a la vez que lo suficientemente simple para un principiante.

Prerrequisitos: Ninguno

Antes de adentrarnos en la RAG multimodal, repasemos brevemente la generación aumentada de recuperación (RAG) tradicional. Básicamente, la idea…