Los modelos de lenguaje grande (LLM) han demostrado una competencia impresionante en numerosas tareas, pero su capacidad para realizar un razonamiento de varios pasos sigue siendo un desafío importante. Esta limitación se vuelve particularmente evidente en escenarios complejos como la resolución de problemas matemáticos, el control de agentes incorporados y la navegación web. Se han aplicado métodos tradicionales de aprendizaje por refuerzo (RL), como la optimización de políticas próximas (PPO), para abordar este problema, pero a menudo conllevan altos costos computacionales y de datos, lo que los hace menos prácticos. Del mismo modo, métodos como la optimización directa de preferencias (DPO), si bien son eficaces para alinear modelos con las preferencias humanas, tienen dificultades con tareas de razonamiento de varios pasos. La dependencia de DPO de datos de preferencia por pares y del tratamiento uniforme de tokens socava su capacidad para asignar crédito de manera efectiva en situaciones con recompensas escasas. Estos obstáculos resaltan la necesidad de soluciones más específicas y eficientes para mejorar las capacidades de razonamiento de LLM.
Presentamos OREO: optimización del razonamiento sin conexión
OREO (Optimización de REasoning fuera de línea) es un enfoque de RL fuera de línea diseñado específicamente para abordar las deficiencias de los métodos existentes para mejorar el razonamiento de varios pasos para los LLM. Desarrollado en colaboración por investigadores de UC San Diego, la Universidad de Tsinghua, Salesforce Research y la Universidad Northwestern, OREO se basa en conocimientos del aprendizaje por refuerzo de máxima entropía. Entrena un modelo de política y una función de valor simultáneamente optimizando la ecuación suave de Bellman. Esta metodología elimina la dependencia de los datos de preferencias por pares, lo que permite utilizar conjuntos de datos no emparejados con escasas recompensas. Además, OREO permite una asignación precisa de créditos a lo largo de trayectorias de razonamiento, lo que resulta especialmente beneficioso cuando el éxito depende de unos pocos pasos críticos. El marco también se puede extender a configuraciones de exploración iterativa e incorpora una función de valor aprendido para mejorar la inferencia a través de la búsqueda en árbol durante las pruebas.
Detalles técnicos y beneficios
La principal innovación de OREO radica en optimizar la ecuación suave de Bellman para entrenar simultáneamente modelos de políticas y valores. Esta estrategia garantiza una asignación de crédito precisa en todos los pasos del razonamiento, abordando las limitaciones de métodos como DPO. Además, OREO ofrece objetivos a nivel de paso y a nivel de respuesta, lo que brinda flexibilidad para diferentes granularidades de tareas de razonamiento. Durante la inferencia en tiempo de prueba, la función de valor admite técnicas de búsqueda avanzadas, como la búsqueda por haz, lo que mejora la precisión. A diferencia de los métodos de referencia como el ajuste fino supervisado (SFT) o el muestreo de rechazo, OREO destaca por aprovechar trayectorias fallidas para mejorar la solidez y adaptabilidad del modelo. Esta capacidad de aprender de los fracasos la hace particularmente valiosa para tareas iterativas de razonamiento de varios pasos.
Resultados y conocimientos
El desempeño de OREO ha sido evaluado rigurosamente en puntos de referencia como GSM8K y MATH para razonamiento matemático, y ALFWorld para control de agentes incorporados. Los hallazgos clave incluyen:
- En GSM8K, OREO logró una mejora relativa del 5,2 % en la precisión utilizando un modelo de parámetros de 1,5 mil millones en comparación con SFT, junto con una mejora del 10,5 % en MATH.
- 52,5% en MATEMÁTICAS con 1.500 millones de LLM (sin uso de conjunto de problemas aumentado)
- En ALFWorld, OREO logró una mejora relativa del 17,7 % en el rendimiento en entornos invisibles, lo que subraya su capacidad para generalizar más allá de los datos de entrenamiento.
El entrenamiento iterativo amplificó aún más la efectividad de OREO, mostrando ganancias consistentes en precisión a lo largo de múltiples iteraciones. Si bien enfoques como el muestreo de rechazo mostraron rendimientos decrecientes, OREO continuó mejorando al incorporar conocimientos de intentos fallidos. La búsqueda en el momento de la prueba utilizando la función de valor de OREO resultó en una mejora relativa de hasta el 17,9% con respecto a la decodificación codiciosa en el conjunto de datos MATH, destacando su impacto en la calidad de la inferencia.
Conclusión
OREO proporciona una solución práctica y eficaz para mejorar el razonamiento de varios pasos en LLM a través de RL fuera de línea. Al abordar las limitaciones de los enfoques existentes, ofrece un método escalable para mejorar las capacidades de razonamiento. Su integración de asignación de créditos detallada, capacitación iterativa y búsqueda en el momento de los exámenes lo convierte en una herramienta versátil para abordar desafíos de razonamiento complejos. Los resultados demuestran el potencial de OREO para su aplicación en una variedad de dominios que requieren una resolución de problemas sofisticada, contribuyendo a la evolución de sistemas de inteligencia artificial capaces de un razonamiento más profundo.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.