Conozca OREO (optimización del razonamiento sin conexión): un método de aprendizaje por refuerzo sin conexión para mejorar el razonamiento de varios pasos del LLM

Los modelos de lenguaje grande (LLM) han demostrado una competencia impresionante en numerosas tareas, pero su capacidad para realizar un razonamiento de varios pasos sigue siendo un desafío importante. Esta limitación se vuelve particularmente evidente en escenarios complejos como la resolución de problemas matemáticos, el control de agentes incorporados y la navegación web. Se han aplicado métodos tradicionales de aprendizaje por refuerzo (RL), como la optimización de políticas próximas (PPO), para abordar este problema, pero a menudo conllevan altos costos computacionales y de datos, lo que los hace menos prácticos. Del mismo modo, métodos como la optimización directa de preferencias (DPO), si bien son eficaces para alinear modelos con las preferencias humanas, tienen dificultades con tareas de razonamiento de varios pasos. La dependencia de DPO de datos de preferencia por pares y del tratamiento uniforme de tokens socava su capacidad para asignar crédito de manera efectiva en situaciones con recompensas escasas. Estos obstáculos resaltan la necesidad de soluciones más específicas y eficientes para mejorar las capacidades de razonamiento de LLM.

Presentamos OREO: optimización del razonamiento sin conexión

OREO (Optimización de REasoning fuera de línea) es un enfoque de RL fuera de línea diseñado específicamente para abordar las deficiencias de los métodos existentes para mejorar el razonamiento de varios pasos para los LLM. Desarrollado en colaboración por investigadores de UC San Diego, la Universidad de Tsinghua, Salesforce Research y la Universidad Northwestern, OREO se basa en conocimientos del aprendizaje por refuerzo de máxima entropía. Entrena un modelo de política y una función de valor simultáneamente optimizando la ecuación suave de Bellman. Esta metodología elimina la dependencia de los datos de preferencias por pares, lo que permite utilizar conjuntos de datos no emparejados con escasas recompensas. Además, OREO permite una asignación precisa de créditos a lo largo de trayectorias de razonamiento, lo que resulta especialmente beneficioso cuando el éxito depende de unos pocos pasos críticos. El marco también se puede extender a configuraciones de exploración iterativa e incorpora una función de valor aprendido para mejorar la inferencia a través de la búsqueda en árbol durante las pruebas.

Detalles técnicos y beneficios

La principal innovación de OREO radica en optimizar la ecuación suave de Bellman para entrenar simultáneamente modelos de políticas y valores. Esta estrategia garantiza una asignación de crédito precisa en todos los pasos del razonamiento, abordando las limitaciones de métodos como DPO. Además, OREO ofrece objetivos a nivel de paso y a nivel de respuesta, lo que brinda flexibilidad para diferentes granularidades de tareas de razonamiento. Durante la inferencia en tiempo de prueba, la función de valor admite técnicas de búsqueda avanzadas, como la búsqueda por haz, lo que mejora la precisión. A diferencia de los métodos de referencia como el ajuste fino supervisado (SFT) o el muestreo de rechazo, OREO destaca por aprovechar trayectorias fallidas para mejorar la solidez y adaptabilidad del modelo. Esta capacidad de aprender de los fracasos la hace particularmente valiosa para tareas iterativas de razonamiento de varios pasos.

Resultados y conocimientos

El desempeño de OREO ha sido evaluado rigurosamente en puntos de referencia como GSM8K y MATH para razonamiento matemático, y ALFWorld para control de agentes incorporados. Los hallazgos clave incluyen:

En GSM8K, OREO logró una mejora relativa del 5,2 % en la precisión utilizando un modelo de parámetros de 1,5 mil millones en comparación con SFT, junto con una mejora del 10,5 % en MATH.
52,5% en MATEMÁTICAS con 1.500 millones de LLM (sin uso de conjunto de problemas aumentado)
En ALFWorld, OREO logró una mejora relativa del 17,7 % en el rendimiento en entornos invisibles, lo que subraya su capacidad para generalizar más allá de los datos de entrenamiento.

El entrenamiento iterativo amplificó aún más la efectividad de OREO, mostrando ganancias consistentes en precisión a lo largo de múltiples iteraciones. Si bien enfoques como el muestreo de rechazo mostraron rendimientos decrecientes, OREO continuó mejorando al incorporar conocimientos de intentos fallidos. La búsqueda en el momento de la prueba utilizando la función de valor de OREO resultó en una mejora relativa de hasta el 17,9% con respecto a la decodificación codiciosa en el conjunto de datos MATH, destacando su impacto en la calidad de la inferencia.

Conclusión

OREO proporciona una solución práctica y eficaz para mejorar el razonamiento de varios pasos en LLM a través de RL fuera de línea. Al abordar las limitaciones de los enfoques existentes, ofrece un método escalable para mejorar las capacidades de razonamiento. Su integración de asignación de créditos detallada, capacitación iterativa y búsqueda en el momento de los exámenes lo convierte en una herramienta versátil para abordar desafíos de razonamiento complejos. Los resultados demuestran el potencial de OREO para su aplicación en una variedad de dominios que requieren una resolución de problemas sofisticada, contribuyendo a la evolución de sistemas de inteligencia artificial capaces de un razonamiento más profundo.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones inigualable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

Conozca OREO (optimización del razonamiento sin conexión): un método de aprendizaje por refuerzo sin conexión para mejorar el razonamiento de varios pasos del LLM

ByEquipo de 7 minutos

Presentamos OREO: optimización del razonamiento sin conexión

Detalles técnicos y beneficios

Resultados y conocimientos

Conclusión

By Equipo de 7 minutos

Related Post

Qwen AI lanza Qwen-Scope: una suite de codificadores automáticos dispersos (SAE) de código abierto que convierte las funciones internas de LLM en herramientas de desarrollo prácticas

Mejorar la comprensión con el lenguaje | Noticias del MIT

Por qué los ingenieros de IA están yendo más allá de LangChain hacia arquitecturas de agentes nativos

You missed

El desafío de los datos de comunicaciones láser se traslada al enlace descendente de la Tierra

Los bomberos detienen el incendio de Orihuela cerca de un colegio en Alicante « Euro Weekly News

¿Por qué Taylor Swift tuvo una cuenta regresiva en su sitio? Lo que sabemos – Hollywood Life

¿Qué es la escala Kardashev y podemos escalarla?