Las capacidades de los LLM están avanzando rápidamente, como lo demuestra su desempeño en varios puntos de referencia en matemáticas, ciencias y tareas de codificación. Al mismo tiempo, los avances en el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y el ajuste de la instrucción están alineando los LLM más estrechamente con las preferencias humanas. Este progreso mejora las habilidades aparentes de los LLM, haciendo que los comportamientos complejos sean más accesibles a través de indicaciones de instrucción. Las estrategias de motivación innovadoras, como la cadena de pensamientos o el árbol de pensamientos, aumentan aún más el razonamiento del LLM. A partir de los éxitos en las técnicas de RL observadas en entornos de juego, la integración de RL en el razonamiento LLM representa una progresión natural, aprovechando la dinámica interactiva de resolución de problemas para mejorar el rendimiento.
Investigadores de Meta, el Instituto de Tecnología de Georgia, StabilityAI y UC Berkeley han investigado la eficacia de varios algoritmos de RL para mejorar las capacidades de razonamiento de los LLM en diversos esquemas de recompensa, tamaños de modelos e inicializaciones. La iteración experta (EI) supera consistentemente a otros métodos y muestra una eficiencia de muestra competitiva. El rendimiento de EI se acerca al de algoritmos más complejos como la optimización de políticas próximas (PPO), e incluso requiere menos muestras para la convergencia. El estudio destaca la importancia del ajuste de RL para cerrar la brecha de rendimiento entre los LLM previamente capacitados y los supervisados. La exploración surge como un factor crítico que afecta la eficacia del ajuste de RL para los LLM, con implicaciones para RL a partir de la retroalimentación humana y el futuro del ajuste de LLM.
Varios estudios muestran la creciente destreza de los LLM para abordar tareas de razonamiento complejas, respaldadas por avances como las técnicas CoT y Tree of Thought. Estos métodos permiten a los LLM posponer las respuestas finales generando cálculos intermedios. La combinación de LLM con algoritmos y herramientas de planificación mejora aún más sus capacidades de razonamiento. RLHF es un método destacado para ajustar los LLM, mientras que los algoritmos de iteración expertos muestran un rendimiento comparable. A pesar de una extensa investigación en RL para mejorar el LLM, aún es necesario descubrir la comprensión de los factores más impactantes.
Los investigadores abordan las tareas de razonamiento para los LLM como problemas de RL, examinando el rendimiento y la complejidad de las muestras de varios algoritmos de RL para ajustar los LLM. El estudio analiza EI, PPO y RL con retorno condicionado (RCRL). Cada algoritmo tiene como objetivo maximizar el rendimiento futuro esperado de una política estudiantil en una tarea determinada. El estudio detalla las metodologías de PPO, EI y RCRL, incluidas estrategias de exploración, procedimientos de capacitación y mecanismos de recompensa. Los investigadores también presentan resultados de experimentos realizados con estos algoritmos en tareas de razonamiento, mostrando su eficacia para mejorar el rendimiento del LLM.
Los experimentos con conjuntos de datos GSM8K y SVAMP evalúan varios modelos utilizando diferentes métricas. Inicialmente se utilizan datos de ajuste fino supervisado (SFT), seguidos de experimentos sin datos SFT. La IE supera a otros métodos y muestra una mejora significativa con respecto a la línea de base. Los modelos EI funcionan mejor que los modelos PPO a pesar de una mayor formación. Los resultados indican que el ajuste fino de RL, particularmente EI, proporciona una mejor generalización y diversidad en las rutas de solución que el ajuste fino estático de SFT. Los modelos más grandes participan en una exploración más diversa, lo que afecta el rendimiento del modelo durante el entrenamiento. Estos hallazgos arrojan luz sobre la eficacia del ajuste de RL para mejorar el rendimiento y la generalización del modelo.
En conclusión, los hallazgos del estudio indican que la IE supera a otros algoritmos de RL en tareas de razonamiento. EI y PPO convergen rápidamente sin ajustes supervisados, beneficiándose poco de orientación adicional o recompensas más densas. El ajuste fino de RL mejora la precisión de uno y varios pasos, aprovechando la generación dinámica de datos sintéticos. El estudio destaca la importancia de los modelos previamente entrenados para permitir la exploración y sugiere limitaciones en las estrategias de exploración actuales. Mayores avances en las técnicas de estimulación y la exploración de modelos son cruciales para mejorar las capacidades de razonamiento del modelo de lenguaje.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
También te puede gustar nuestro Cursos GRATUITOS de IA….
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.