Guru: un marco de aprendizaje de refuerzo que une el razonamiento de LLM en seis dominios

Limitaciones del aprendizaje de refuerzo en dominios de razonamiento estrechos

Reforzing Learning RL ha demostrado un fuerte potencial para mejorar las capacidades de razonamiento de los LLM, particularmente en sistemas líderes como OpenAI-O3 y Deepseek-R1. Sin embargo, la mayoría de las investigaciones de RL se han centrado estrechamente en las matemáticas y el código, lo que limita su aplicabilidad general. Este alcance estrecho plantea dos problemas: nuestra comprensión de cómo RL mejora el razonamiento puede no generalizarse más allá de estos dominios, y los modelos resultantes a menudo carecen de versatilidad. Ampliar RL a tareas de razonamiento más amplias es un desafío debido a la falta de señales de recompensa confiables y conjuntos de datos seleccionados, que son más fáciles de definir en términos matemáticos y basados ​​en el código, pero más difíciles en los dominios de razonamiento abierto.

Enfoque de dominio estrecho y desafíos de generalización

Reforzing Learning RL se ha convertido en un método popular para mejorar las habilidades de razonamiento de LLM, especialmente después de éxitos con modelos como GPT-3 de OpenAI y Deepseek-R1. Han seguido muchos esfuerzos de código abierto, centrándose principalmente en dominios matemáticos y de codificación. Si bien estos modelos funcionan bien en sus nichos, su razonamiento no siempre se generaliza a tareas más amplias. Al mismo tiempo, la investigación ha explorado cómo RL influye en el razonamiento. Algunos estudios sugieren que RL no enseña nuevas habilidades, pero aumenta la capacidad del modelo para acceder a los patrones de razonamiento existentes. Sin embargo, el trabajo más nuevo indica que la capacitación RL extendida puede desbloquear estrategias de razonamiento completamente nuevas.

Introducción del conjunto de datos Guru: un punto de referencia RL de múltiples dominios

Investigadores de UC San Diego, Mbzuai, Carnegie Mellon y Purdue presentan a Guru, un conjunto de datos RL de 92 K-Ejemplo que cubre seis dominios de razonamiento: matemáticas, código, ciencia, lógica, simulación y tabular. Cada dominio está cuidadosamente construido con funciones de recompensa a medida y filtrado riguroso. Los modelos de entrenamiento en Guru revelan que los resultados de RL dependen en gran medida de la familiaridad del dominio: los dominios comunes se benefician de la RL de dominio cruzado, mientras que los desconocidos requieren un entrenamiento en el dominio para mejorar significativamente. Sus modelos, Guru-7b y Guru-32b, superan a los modelos de apertura anteriores hasta un 7,9% en 17 tareas. Estos hallazgos destacan los efectos específicos del dominio de RL y el valor de los puntos de referencia de razonamiento amplios y de dominios.

Efectos de aprendizaje de refuerzo cruzado versus refuerzo en dominio

Para comprender mejor cómo RL admite el razonamiento en todos los dominios, los investigadores capacitaron modelos en datos de dominios individuales y mixtos del conjunto de datos Guru. Descubrieron que los dominios como las matemáticas, el código y la ciencia se beneficiaron más de RL de dominio cruzado, probablemente debido a su mayor presencia en la capacitación previa. El entrenamiento de dominios mixtos se desempeñó tan bien o mejor que el entrenamiento de dominio único, lo que demuestra que combinar diversas tareas puede mejorar el razonamiento general. Sin embargo, el entrenamiento solo en ejemplos más duros mejoró el rendimiento en ese dominio pero reduce la precisión en funciones más simples en otros. Estos hallazgos sugieren que la diversidad de datos y la dificultad equilibrada son clave para las habilidades de razonamiento efectivas y transferibles.

Estrategia de arquitectura y evaluación del modelo Guru

El estudio capacitó a los modelos 7b y 32 de tamaño B utilizando el conjunto de datos Guru para explorar cómo la combinación de múltiples dominios durante RL mejora las habilidades de razonamiento. Utilizando el algoritmo de verl Framework y GRPO, los modelos se evaluaron en una amplia gama de tareas, incluidas las matemáticas, el código, la lógica, la ciencia, la simulación y las tablas, utilizando métricas consistentes. Los resultados mostraron que los modelos GURU superaron las líneas de base específicas del dominio y se desempeñaron bien en tareas invisibles. En particular, el análisis de Pass@K reveló que el rendimiento depende del tipo de tarea, el tamaño del modelo y la configuración de decodificación. Los modelos más grandes se beneficiaron más de RL, y el ajuste de los parámetros de muestreo, como la temperatura y el Top-P, ayudaron a mejorar la diversidad de modelos y la cobertura de razonamiento.

Resumen: razonamiento de uso general con gurú

En conclusión, Guru es un conjunto de datos RL curado que contiene 92,000 ejemplos verificables de alta calidad en seis dominios de razonamiento: matemáticas, código, ciencia, lógica, simulación y tabular. A diferencia de la investigación anterior de RL, que se ha centrado principalmente en las matemáticas y el código, Guru permite estudios de razonamiento más amplios al proporcionar señales de recompensa específicas de dominio. Los investigadores capacitan a dos modelos, Guru-7b y Guru-32b, que logran resultados de última generación en 17 tareas de referencia, particularmente sobresaliendo en dominios subrepresentados durante la previación. Sus hallazgos muestran que RL puede refinar el conocimiento existente y fomentar nuevas habilidades de razonamiento. Todos los datos, modelos y código se publican públicamente para apoyar una mayor investigación de razonamiento de propósito general.


Mira el Papel, Página del proyecto y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.