Los LLM han demostrado fuertes capacidades de razonamiento y conocimiento, sin embargo, a menudo requieren un aumento de conocimiento externo cuando sus representaciones internas carecen de detalles específicos. Un método para incorporar nueva información se supervisa el ajuste fino, donde los modelos están capacitados en conjuntos de datos adicionales para actualizar sus pesos. Sin embargo, este enfoque es ineficiente, ya que requiere reentrenamiento cada vez que se introduzca un nuevo conocimiento y puede conducir a un olvido catastrófico, degradando el rendimiento del modelo en tareas generales. Para superar estas limitaciones, las técnicas alternativas que preservan los pesos del modelo han ganado popularidad. TRAPO es un enfoque que recupera el conocimiento relevante del texto no estructurado y lo agrega a la consulta de entrada antes de pasarlo a través del modelo. Al recuperar dinámicamente la información, RAG permite a LLM acceder a grandes bases de conocimiento mientras mantiene un tamaño de contexto más pequeño. Sin embargo, a medida que han surgido modelos de contexto a largo plazo como GPT-4 y Gemini, los investigadores han explorado el aprendizaje en contexto, donde el conocimiento externo se proporciona directamente en la entrada del modelo. Esto elimina la necesidad de recuperación, pero viene con desafíos computacionales, ya que el procesamiento de contextos largos requiere significativamente más memoria y tiempo.

Se han desarrollado varias técnicas avanzadas para mejorar la capacidad de LLM para integrar el conocimiento externo de manera más eficiente. Los mecanismos de atención estructurados mejoran la eficiencia de la memoria al segmentar el contexto en secciones independientes, reduciendo la carga computacional de autoatención. El almacenamiento en caché del valor clave (KV) optimiza la generación de respuestas almacenando incrustaciones precomputadas en diferentes capas, lo que permite que el modelo recuerde la información relevante sin recalcularla. Esto reduce la complejidad de cuadrática a lineal con respecto a la longitud del contexto. A diferencia del almacenamiento en caché de KV tradicional, que requiere una recomputación completa cuando cambia la entrada, los métodos más nuevos permiten actualizaciones selectivas, lo que hace que la integración del conocimiento externo sea más flexible.

Investigadores de la Universidad Johns Hopkins y Microsoft proponen un Modelo de lenguaje aumentado de la base de conocimiento (KBLAM), un método para integrar el conocimiento externo en LLM. KBLAM convierte la base de conocimiento estructurado (KB) triplica en pares de vectores de valor clave, incrustándolos sin problemas dentro de las capas de atención de la LLM. A diferencia de RAG, elimina los retrievers externos y, a diferencia del aprendizaje en contexto, escala linealmente con el tamaño de KB. KBLAM permite actualizaciones dinámicas eficientes sin capacitar y mejora la interpretabilidad. Entrenado utilizando el ajuste de instrucciones en los datos sintéticos, mejora la confiabilidad al negarse a responder cuando el conocimiento relevante está ausente, reduciendo las alucinaciones y mejorando la escalabilidad.

KBLAM mejora los LLM integrando un KB a través de dos pasos. Primero, cada triple de KB se convierte en incrustaciones continuas de valor clave, denominado tokens de conocimiento, utilizando un codificador de oraciones previamente capacitado y adaptadores lineales. Estos tokens se incorporan a cada capa de atención a través de una estructura de atención rectangular, lo que permite una recuperación eficiente sin alterar los parámetros centrales de la LLM. Este método garantiza la escalabilidad, mitiga el sesgo posicional y mantiene las habilidades de razonamiento. Además, la sintonización de instrucciones optimiza la proyección de token de conocimiento sin modificar el LLM, utilizando un KB sintético para evitar la memorización. Este enfoque integra eficientemente KBS grandes al tiempo que preserva las capacidades originales del modelo.

La evaluación empírica de KBLAM demuestra su efectividad como modelo de recuperación y razonamiento de conocimiento. Después del ajuste de las instrucciones, su matriz de atención exhibe patrones interpretables, lo que permite una recuperación precisa. KBLAM logra un rendimiento comparable al aprendizaje en contexto al tiempo que reduce significativamente el uso de la memoria y mantiene la escalabilidad de hasta 10k triples. También puede negarse a responder cuando no se encuentran conocimientos relevantes, con «sobre-refusal» que ocurre más tarde que el aprendizaje en contexto. El modelo está entrenado en un LLAMA3-8B sintonizado con instrucciones y se optimiza usando Adamw. La evaluación de los conjuntos de datos sintéticos y Enron confirma la fuerte precisión de la recuperación de KBLAM, la integración eficiente del conocimiento y la capacidad de minimizar las alucinaciones.

En conclusión, KBLAM es un enfoque para mejorar los LLM con KB externos. Codifica las entradas de KB como pares de vectores de valor clave continuo utilizando codificadores de oraciones previamente capacitados con adaptadores lineales y los integra en LLM a través de un mecanismo de atención especializado. A diferencia de la generación de recuperación, KBLAM, elimina los módulos de recuperación externos y, a diferencia del aprendizaje en contexto, escala linealmente con el tamaño de KB. Esto permite una integración eficiente de más de 10k triples en un LLM de 8B dentro de una ventana de contexto de 8k en una sola GPU A100. Los experimentos muestran su efectividad en las tareas de respuesta y razonamiento de la pregunta y manteniendo la interpretabilidad y habilitando actualizaciones de conocimiento dinámico.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Por automata