Q*: Un enfoque de inteligencia artificial versátil para mejorar el desempeño de LLM en tareas de razonamiento

Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) han demostrado capacidades notables para abordar diversas tareas de razonamiento expresadas en lenguaje natural, incluidos problemas matemáticos, generación de código y planificación. Sin embargo, a medida que aumenta la complejidad de las tareas de razonamiento, incluso los LLM más avanzados tienen problemas con errores, alucinaciones e inconsistencias debido a su naturaleza autorregresiva. Este desafío es particularmente evidente en tareas que requieren múltiples pasos de razonamiento, donde el pensamiento del “Sistema 1” de los LLM (rápido e instintivo pero menos preciso) no es suficiente. La necesidad de un pensamiento del “Sistema 2” más deliberativo y lógico se vuelve crucial para resolver problemas de razonamiento complejos de manera precisa y consistente.

Se han realizado varios intentos para superar los desafíos que enfrentan los LLM en tareas complejas de razonamiento. El ajuste fino supervisado (SFT) y el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) tienen como objetivo alinear los resultados del LLM con las expectativas humanas. También se han desarrollado métodos de optimización de preferencias directas (DPO) y alineador para mejorar la alineación. En el ámbito de mejorar los LLM con capacidades de planificación, se han aplicado el árbol de pensamientos (ToT), la búsqueda A* y la búsqueda de árbol de Monte Carlo (MCTS). Para el razonamiento matemático y la generación de código, se han explorado técnicas como la ingeniería rápida, el ajuste con corpus de tareas específicas y el entrenamiento de modelos de recompensa. Sin embargo, estos métodos a menudo requieren una amplia experiencia, importantes recursos computacionales o modificaciones específicas de la tarea, lo que limita su generalización y eficiencia.

Investigadores de Skywork AI y la Universidad Tecnológica de Nanyang presentes P*, un marco sólido diseñado para mejorar las capacidades de razonamiento de varios pasos de los LLM a través de la planificación deliberativa. Este enfoque formaliza el razonamiento LLM como un proceso de decisión de Markov (MDP), donde el estado combina la indicación de entrada y los pasos de razonamiento previos, la acción representa el siguiente paso de razonamiento y la recompensa mide el éxito de la tarea. Q* presenta métodos generales para estimar valores Q óptimos de pares estado-acción, incluido el aprendizaje por refuerzo fuera de línea, la mejor selección de secuencias a partir de implementaciones y la finalización utilizando LLM más potentes. Al enmarcar el razonamiento de varios pasos como un problema de búsqueda heurística, Q* emplea modelos de valor Q plug-and-play como funciones heurísticas dentro de un marco de búsqueda A*, guiando a los LLM a seleccionar de manera eficiente los siguientes pasos más prometedores.

El marco Q* emplea una arquitectura sofisticada para mejorar las capacidades de razonamiento de varios pasos de los LLM. Formaliza el proceso como un problema de búsqueda heurística, utilizando un algoritmo de búsqueda A*. El marco asocia cada estado con un valor f, calculado como una suma ponderada de utilidad agregada y un valor heurístico. La utilidad agregada se calcula utilizando una función de recompensa basada en procesos, mientras que el valor heurístico se estima utilizando el valor Q óptimo del estado. Q* introduce tres métodos para estimar los valores Q óptimos: aprendizaje por refuerzo fuera de línea, aprendizaje a partir de implementaciones y aproximación mediante LLM más potentes. Estos métodos permiten que el marco aprenda de los datos de entrenamiento sin modificaciones específicas de la tarea. El proceso de planificación deliberativa sigue un algoritmo de búsqueda A*. Mantiene dos conjuntos de estados: no visitado y visitado. El algoritmo selecciona iterativamente el estado con el valor f más alto del conjunto no visitado, lo expande utilizando la política LLM y actualiza ambos conjuntos en consecuencia. Este proceso continúa hasta que se alcanza un estado terminal (trayectoria completa), momento en el que se extrae la respuesta del estado final.

Q* demostró mejoras significativas en el rendimiento en varias tareas de razonamiento. En el conjunto de datos GSM8K, mejoró Llama-2-7b para lograr una precisión del 80,8 %, superando a ChatGPT-turbo. Para el conjunto de datos MATH, Q* mejoró Llama-2-7b y DeepSeekMath-7b, alcanzando una precisión del 55,4 %, superando a modelos como Gemini Ultra (4 disparos). En la generación de código, Q* impulsó CodeQwen1.5-7b-Chat a una precisión del 77,0 % en el conjunto de datos MBPP. Estos resultados muestran de manera consistente la eficacia de Q* para mejorar el rendimiento de LLM en tareas de razonamiento matemático y generación de código, superando a los métodos tradicionales y algunos modelos de código cerrado.

Q* surge como un método eficaz para superar el desafío del razonamiento de varios pasos en los LLM mediante la introducción de un marco de deliberación sólido. Este enfoque mejora la capacidad de los LLM para resolver problemas complejos que requieren un pensamiento lógico y profundo más allá de la simple generación de tokens autorregresivos. A diferencia de los métodos anteriores que se basan en funciones de utilidad específicas de tareas, Q* utiliza un modelo de valor Q versátil entrenado únicamente en datos reales, lo que lo hace fácilmente adaptable a diversas tareas de razonamiento sin modificaciones. El marco emplea modelos de valor Q plug-and-play como funciones heurísticas, lo que guía a los LLM de manera efectiva sin la necesidad de realizar ajustes específicos de la tarea, preservando así el rendimiento en diversas tareas. La agilidad de Q* surge de su enfoque de consideración de un solo paso, en contraste con métodos más intensivos en computación como MCTS. Amplios experimentos en razonamiento matemático y generación de código demuestran el rendimiento superior de Q*, destacando su potencial para mejorar significativamente las capacidades complejas de resolución de problemas de los LLM.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 45 000 millones de usuarios


🚀 Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto, Gretel Navigator, ¡ahora disponible de forma generalizada! [Advertisement]


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.