DOCS = { “transformer_architecture.md”: textwrap.dedent(“””\ # Arquitectura Transformer ## Descripción general Transformer es una arquitectura de aprendizaje profundo introducida en “La atención es todo lo que necesitas” (Vaswani et al., 2017). Reemplazó las redes recurrentes con un mecanismo de autoatención, lo que permite el entrenamiento paralelo y un mejor modelado de dependencia de largo alcance. ## Componentes clave – **Autoatención de múltiples cabezales**: calcula la atención en h cabezales paralelos, cada uno con sus propias proyecciones Q/K/V aprendidas, luego concatena y proyecta. – **Red de alimentación hacia adelante (FFN)**: dos capas lineales con activación ReLU, aplicadas según la posición. – **Codificación posicional**: incrustaciones sinusoidales o aprendidas que inyectan información de orden de secuencia, ya que la atención es invariante de permutación. – **Normalización de capas**: se aplica antes (Pre-LN) o después (Post-LN) de cada subcapa. estabilización de gradientes. – **Conexiones residuales**: agregadas alrededor de cada subcapa para facilitar el flujo de gradiente. ## Codificador vs decodificador La pila del codificador procesa tokens de entrada de forma bidireccional (por ejemplo, BERT) utiliza atención causal (enmascarada) sobre las salidas anteriores más atención cruzada sobre las salidas del codificador (por ejemplo, GPT, T5). datos y recuento de parámetros. Esto motivó a GPT-3 (175B) y los modelos de lenguaje grandes posteriores. ## Limitaciones – Complejidad cuadrática en la longitud de la secuencia: O (n^2) – Sin recurrencia inherente -> desafíos de contexto largo – Leyes de escala para modelos de lenguaje neuronal. arXiv:2001.08361 “””), “rag_systems.md”: textwrap.dedent(“””\ # Recuperación-Generación aumentada (RAG) ## Definición RAG aumenta un LLM generativo con un paso de recuperación: dada una consulta, los documentos relevantes se obtienen de un corpus y se anteponen al mensaje, brindando al modelo un contexto fundamentado más allá de sus datos de entrenamiento. ## Arquitectura 1. **Fase de indexación**: los documentos se fragmentan, se incrustan mediante un codificador dual (por ejemplo, text-embedding-3-large) y se almacenan en una base de datos vectorial (por ejemplo, Faiss, Pinecone, Weaviate). 2. **Fase de recuperación**: la consulta del usuario se incrusta; la búsqueda aproximada del vecino más cercano (ANN) devuelve los k fragmentos principales. 3. **Fase de generación**: los fragmentos recuperados + la consulta se pasan al LLM, que sintetiza un final. respuesta. ## Variantes – **Recuperación densa**: DPR, Contriever: consultas y documentos en el mismo espacio. – **Recuperación dispersa**: BM25: término basado en frecuencia, no se necesitan incrustaciones – **Recuperación híbrida**: Fusión de rango recíproco (RRF) combina densa + dispersa – **Reclasificación**: un codificador cruzado vuelve a puntuar el top-k antes de que el LLM vea. ## Desafíos – Límites de la ventana de contexto: los pasajes recuperados largos pueden no encajar. – La calidad de la recuperación es un límite estricto para la calidad de la generación. – La estrategia de fragmentación afecta significativamente la recuperación – Las preguntas de múltiples saltos requieren una recuperación iterativa (IRCoT, ReAct). et al. (2020). RAG para tareas de PNL con uso intensivo de conocimiento. NeurIPS. Gao et al. (2023). RAG para modelos de lenguaje grandes. ## ¿Qué es un gráfico de conocimiento? de entidades (nodos) y relaciones (bordes): (sujeto, predicado, objeto) triples, por ejemplo (Vaswani, autor, “Attention Is All You Need”). ## ¿Por qué combinar los KG con los LLM? Los KG alucinan hechos estructurados y verificables. Los KG son difíciles de consultar en lenguaje natural. Juntos permiten responder preguntas fieles, fundamentadas y explicables. Generación aumentada de KG (KGAG) Recupere tripletas o subgráficos en lugar de fragmentos de texto, serialícelos en texto y luego envíelos al indicador de LLM. ### Los LLM de construcción de KG asistidos por LLM extraen (asunto, relación, objeto) tripletas de texto no estructurado, lo que reduce significativamente el esfuerzo de curación manual. ### GraphRAG (Microsoft Research, 2024) GraphRAG agrupa comunidades de documentos, genera resúmenes de comunidades y los almacena en un archivo. Las consultas de KG respondidas por reducción de mapas sobre resúmenes comunitarios superan a RAG de vector plano en tareas de creación de sentido. ## Desafíos: la calidad de la construcción de KG depende de la precisión de la extracción de LLM. – Las bases de datos de gráficos agregan complejidad a la infraestructura: la falta de razonamiento estructurado y la incapacidad de seguir las relaciones de múltiples saltos. al. (2023). Unificación de LLM y KG.