Los modelos de idiomas grandes (LLM) han revolucionado la inteligencia artificial al demostrar capacidades notables en la generación de texto y la resolución de problemas. Sin embargo, una limitación crítica persiste en su incumplimiento “Pensamiento rápido” Enfoque: Generación de salidas basadas en una sola consulta sin refinamiento iterativo. Si bien reciente “Pensamiento lento” Métodos como la cadena de pensamiento que provocan problemas de interrupción en pasos más pequeños, siguen siendo limitados por el conocimiento inicial estático y no pueden integrar dinámicamente nueva información durante el razonamiento. Esta brecha se pronuncia en tareas complejas que requieren actualizaciones de conocimiento en tiempo real, como la respuesta de preguntas de múltiples saltos o la generación de código adaptativo.
Los enfoques actuales para mejorar el razonamiento de LLM se dividen en dos categorías. Generación de recuperación de la recuperación (TRAPO) Los sistemas precargan el conocimiento externo pero a menudo introducen información irrelevante que obstaculiza la eficiencia y la precisión. Algoritmos de búsqueda basados en árboles como Búsqueda de árboles de Monte Carlo (MCTS) Habilite la exploración estructurada de las rutas de razonamiento pero carece de mecanismos para la integración del conocimiento contextual. Por ejemplo, mientras LATS (MCTS dirigido por LLM) introdujo etapas de evaluación y reflexión, todavía funciona dentro de los límites de conocimiento iniciales del modelo. Estos métodos luchan por equilibrar la amplitud de exploración, la relevancia contextual y la eficiencia computacional, a menudo produciendo respuestas demasiado amplias o insuficientemente informadas.
En este documento, un equipo de investigadores de Digital Security Group, Qihoo 360 propuso el Pensamientos asociados con cadena (abrigo) Marco para abordar estas limitaciones a través de dos innovaciones clave. Primero, un mecanismo de memoria asociativo Permite la integración del conocimiento dinámico durante el razonamiento, imitando las asociaciones cognitivas humanas. A diferencia de los enfoques de trapo estático que recuperan la información por adelantado, la capa activa la recuperación del conocimiento en respuesta a pasos de razonamiento específicos, equivalente a un matemático que recuerda los teoremas relevantes solo cuando sea necesario en una prueba. Segundo, un algoritmo MCTS optimizado Incorpora este proceso asociativo a través de un nuevo ciclo de cuatro etapas: selección, expansión con asociación de conocimiento, evaluación de calidad y respaldo de valor. Esto crea un ciclo de retroalimentación donde cada paso de razonamiento puede desencadenar actualizaciones de conocimiento específicas, como se muestra en la Figura 4 de la implementación original.
En el núcleo del abrigo se encuentra una arquitectura de razonamiento de doble torrente. Al procesar una consulta, el sistema explora simultáneamente las posibles rutas de razonamiento a través del árbol MCTS mientras mantiene un banco de memoria asociativo. Cada nodo en el árbol de búsqueda (que representa un paso de razonamiento) genera ambos contenido (G (n))conocimiento asociado (Am (n)) y
Asigna puntajes de equilibrio calidad de respuesta de respuesta (Fgramo) y relevancia del conocimiento (Fa)con β controlando su importancia relativa. Esto asegura que las asociaciones permanezcan estrechamente acopladas al proceso de razonamiento en evolución en lugar de introducir información tangencial.
La evaluación del rendimiento de la capa destaca su superioridad sobre las técnicas de mejora del razonamiento existentes. El marco se comparó con métricas cualitativas y cuantitativas en varias tareas. Las evaluaciones cualitativas incluyeron respuestas complejas de consultas, donde la capa demostró respuestas más ricas y más completas en comparación con modelos de referencia como Qwen2.5-32b y ChatGPT. En particular, introdujo categorías adicionales de razonamiento, como consideraciones éticas y regulatorias, que estaban ausentes en otros modelos. Las evaluaciones cuantitativas se realizaron en dos dominios primarios: respuesta de preguntas intensivas en conocimiento y generación de códigos. Para las tareas de generación acuática (RAG) de recuperación, se comparó el abrigo con Nativerag, Ircot, Hipporag, LATS y KAG en los conjuntos de datos Hotpotqa y 2Wikimultihopqa. Las métricas como Exact Match (EM) y F1 los puntajes confirmaron el rendimiento superior de la capa, lo que demuestra su capacidad para generar respuestas precisas y contextualmente relevantes. En la generación de códigos, los modelos mejorados con la capa superaron a las contrapartes ajustadas (qwen2.5-coder-7b-instructo, qwen2.5-coder-14b-instructo) en conjuntos de datos como Humaneval, MBPP y Humaneval-X, que subrayan su adaptabilidad a Tareas de razonamiento específicas del dominio.
Este trabajo establece un nuevo paradigma para el razonamiento de LLM mediante la integración de la asociación de conocimiento dinámico con la búsqueda estructurada. A diferencia de los métodos de aumento estáticos anteriores, las actualizaciones de memoria en tiempo real de Coat permiten un razonamiento context-consciente que se adapta a las necesidades de información emergente. Las innovaciones técnicas en la optimización de MCTS y la evaluación de doble contenido proporcionan un plan para combinar sistemas de conocimiento externos con LLM modernos. Si bien las implementaciones actuales se basan en cerebros externos predefinidos, la arquitectura naturalmente admite la integración plug-and-play con herramientas emergentes como los agentes LLM y la búsqueda web en tiempo real. Estos avances sugieren que la próxima frontera en el razonamiento de IA puede estar en sistemas que entrelazan dinámicamente el cálculo interno con la recuperación de conocimiento externo dirigido, al igual que los expertos humanos que consultan referencias durante la resolución compleja de problemas.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.
Vineet Kumar es un pasante de consultoría en MarktechPost. Actualmente está persiguiendo su BS del Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en aprendizaje profundo, visión por computadora y campos relacionados.