El razonamiento matemático sigue siendo un área difícil para la inteligencia artificial (IA) debido a la complejidad de la resolución de problemas y la necesidad de un pensamiento lógico estructurado. Si bien los modelos de idiomas grandes (LLM) han hecho un progreso significativo, a menudo luchan con tareas que requieren razonamiento de varios pasos. El aprendizaje de refuerzo (RL) ha demostrado ser prometedor para mejorar estas capacidades, sin embargo, los métodos tradicionales enfrentan desafíos cuando las recompensas son escasas y binarias, proporcionando poca retroalimentación más allá de una respuesta correcta o incorrecta.
El laboratorio de Shanghai AI se ha desarrollado Aprendizaje de refuerzo basado en recompensas de resultados (Oreal)una serie de modelos de razonamiento matemático disponibles como Oreal-7b y Oreal-32b. Este marco está diseñado para situaciones en las que solo están disponibles recompensas binarias, correctas o incorrectas. A diferencia de los enfoques RL convencionales que dependen de la retroalimentación densa, Oreal usa Best-de-N (Bon) Muestreo para la clonación de comportamiento y reorganiza las recompensas negativas para mantener la consistencia del gradiente.
Oreal-7b y Oreal-32b demuestran que los modelos más pequeños pueden funcionar de manera competitiva con modelos significativamente más grandes. Oreal-7b logra un puntaje de 94.0% de pase@1 en el punto de referencia Math-500un resultado comparable a los modelos anteriores de 32B, mientras que Oreal-32b alcanza el 95.0% de pase@1, superando los modelos anteriores entrenados a través de la destilación.
Ideas y ventajas técnicas
El marco de Oreal presenta varias técnicas clave para mejorar el razonamiento matemático:
- La mejor muestra de la clonación de comportamiento: El muestreo BON ayuda a seleccionar trayectorias de razonamiento positivas óptimas, lo que permite que el modelo aprenda de soluciones bien formadas.
- Recompensa de remodelación para muestras negativas: Al ajustar las recompensas negativas, el marco garantiza la consistencia del gradiente entre muestras correctas e incorrectas, refinando la optimización del modelo.
- Modelo de recompensa a nivel de token para el razonamiento de la cadena de pensamiento: El razonamiento matemático a menudo implica secuencias largas de pasos lógicos. Oreal asigna pesos de importancia a los tokens de razonamiento clave, abordando el desafío de la retroalimentación binaria escasa.
- Aprendizaje de refuerzo en la política: El modelo se refina dinámicamente en función de las consultas muestreadas, mejorando la eficiencia del entrenamiento y la adaptabilidad.
Estas técnicas permiten una capacitación más estable y un mejor rendimiento en las tareas de razonamiento de secuencia larga, lo que hace que el aprendizaje de refuerzo sea una alternativa viable a los enfoques de destilación tradicionales.
Rendimiento y evaluación
Se han probado modelos oreal en varios puntos de referencia:
- Math-500 de referencia:
- Oreal-7b logra el 94.0% pase@1un nivel de rendimiento previamente visto solo en modelos 32B.
- Oreal-32b logra el 95.0% pase@1Establecer un nuevo estándar en razonamiento matemático.
- AIME2024 y Olympiadbench:
- Los modelos oreal superan a múltiples líneas de base, que muestran una fuerte generalización entre los tipos de problemas.
- Comparación con los modelos Operai O-Series y DeepSeek:
- Oreal-32b supera Deepseek-R1-Distill-Qwen-32b y Pregai-o1 previademostrando estrategias de capacitación efectivas.
- Oreal-7b logra resultados a la par con QWQ-32B previa y OpenAi-O1-Minidestacando el impacto de su enfoque de aprendizaje de refuerzo.
Conclusión
Shanghai Ai Lab’s Oreal-7b y Oreal-32b Los modelos ofrecen un enfoque refinado para el aprendizaje de refuerzo en el razonamiento matemático. Abordando el desafío de las recompensas binarias escasas a través de El mejor muestreo de N, la configuración de la recompensa y la ponderación de importancia a nivel de tokenestos modelos logran un rendimiento competitivo incluso a escalas más pequeñas. El marco de Oreal proporciona información valiosa sobre cómo el aprendizaje de refuerzo puede optimizarse para tareas de razonamiento complejas, lo que sugiere nuevas direcciones para mejorar las capacidades de resolución de problemas de IA en dominios estructurados.
Verificar el Papel, Oreal-7b y Oreal-32b. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.