LightProf: un marco de IA ligero que permite que los modelos de lenguaje a pequeña escala realicen un razonamiento complejo sobre los gráficos de conocimiento (KG) utilizando indicaciones estructuradas

Los modelos de idiomas grandes (LLM) han revolucionado el procesamiento del lenguaje natural, con habilidades en tareas complejas de disparo cero a través de extensos datos de capacitación y vastos parámetros. Sin embargo, los LLM a menudo luchan con tareas intensivas en conocimiento debido a un conocimiento previo limitado específicos de tareas y capacidades de comprensión. Los LLM necesitan acceso a bases de conocimiento confiables y actualizadas continuamente para un razonamiento efectivo, con gráficos de conocimiento (KG) que son candidatos ideales debido a su marco semántico estructurado. Los enfoques actuales para el razonamiento de LLM en KGS encuentran dos obstáculos: representar el contenido de KG como texto extenso no puede transmitir relaciones lógicas ricas dentro de la estructura de gráficos, y los procesos de recuperación y razonamiento exigen numerosas llamadas de LLM y un poder de razonamiento sustancial.

La ingeniería rápida ha surgido como una técnica crítica para expandir las capacidades de LLM en varias aplicaciones sin modificar los parámetros del modelo. El campo ha evolucionado de simples indicaciones de cero disparos y pocos disparos a enfoques más complejos como la cadena de pensamiento (cot), el árbol de pensamientos (TOT) y el gráfico de pensamientos (GOT). El razonamiento LLM basado en KG ha ganado tracción a medida que KGS proporciona un conocimiento explícito y estructurado que mejora la conciencia del conocimiento de LLM con estructuras lógicas claras. Soluciones más flexibles como Kaping, KGGPT, StructGPT, TOG y KnowledGenavigator LLM indican que el uso de información objetiva de KG con varias técnicas como recuperación de similitud semántica, marcos de razonamiento de varios pasos y búsqueda de haz en KGS para mejorar las capacidades de razonamiento.

Investigadores de la Universidad de Beijing de puestos y telecomunicaciones, la Universidad de Hangzhou Dianzi, la Universidad de Gestión de Singapur, la Universidad Nacional de Singapur, el Instituto de Tecnología de la Computación de la Academia de Ciencias de China y la Universidad Xi’an Jiaotong han propuesto LightProf, un marco liviano y eficiente de la condición de aprendizaje rápido. El marco Remieveembed-REason permite que los LLM a pequeña escala realicen una recuperación estable y un razonamiento eficiente en KGS. Contiene tres componentes centrales: recuperación, incrustación y módulos de razonamiento. La recuperación utiliza las relaciones como unidades de recuperación fundamentales y limita el alcance en función de la semántica de preguntas, la incrustación utiliza un adaptador de conocimiento basado en transformadores compactos y el razonamiento combina vectores de representación integrados con indicaciones cuidadosamente diseñadas. LightProf admite varios LLM y KG de código abierto, al tiempo que solo requiere ajuste del adaptador de conocimiento durante el entrenamiento.

LightProf se evalúa en dos conjuntos de datos públicos basados ​​en Freebase: WebQuestionssp (WEBQSP) y ComplexWebQuestions (CWQ). WebQSP sirve como un punto de referencia con menos preguntas (4,737) pero un KG más grande, y CWQ está diseñado para la respuesta compleja de preguntas de KG con 34,689 pares de respuesta-respuesta construidos en WebQSP. El rendimiento se mide utilizando la precisión de la coincidencia (golpes@1), que evalúa si la respuesta principal del modelo es correcta. LightProf se compara con tres categorías de métodos de línea de base: enfoques completos de ajuste fino (incluidos KV-MEM, InScedkGQA, TransferNet, NSM, etc.), Métodos de Vanilla LLM (con modelos de series de LLAMA) y métodos LLM+KGS (como STRTUCTGPT, TOG, KnowledGenAnavigator y Agente Buncench).

LightProf supera significativamente a los modelos de última generación, logrando una precisión del 83.7% en el conjunto de datos WEBQSP y el 59.3% en el conjunto de datos CWQ más desafiante. Estos resultados validan la efectividad de LightProf en el manejo de desafíos de razonamiento múltiple y complejos en la respuesta a las preguntas de KG. Al integrar diferentes LLM en el marco, LightProf mejora constantemente el rendimiento, independientemente de las capacidades de referencia de los modelos originales. Esta estrategia de integración plug-and-play elimina la necesidad de un ajuste costoso de LLM. Las evaluaciones de eficiencia contra StructGPT revelan la utilización superior de los recursos de LightProf, con una reducción del 30% en el tiempo de procesamiento, una reducción del 98% en el uso de tokens de entrada y tokens significativamente más bajos por solicitud.

En conclusión, los investigadores introdujeron LightProf, un marco novedoso que mejora el razonamiento de LLM a través de una recuperación precisa y una codificación eficiente de KG. Narra el alcance de la recuperación muestreando KGS utilizando relaciones estables como unidades. Los investigadores desarrollaron un adaptador de conocimiento complejo que analiza efectivamente las estructuras gráficas e integra información para permitir un razonamiento eficiente con LLM más pequeños. Condensa los gráficos de razonamiento en menos tokens mientras se logra una alineación integral con el espacio de entrada LLM a través del componente del proyector. Las instrucciones de investigación futuras incluyen el desarrollo de codificadores de KG con fuertes capacidades de generalización que se pueden aplicar a datos de KG invisibles sin capacitar y diseñar codificadores intermodales unificados capaces de manejar KG multimodales.


Verificar Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.