Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) han ganado una atención significativa como herramientas poderosas para diversas tareas, pero su potencial como agentes de toma de decisiones de propósito general presenta desafíos únicos. Para funcionar eficazmente como agentes, los LLM deben ir más allá de simplemente generar compleciones de texto plausibles. Necesitan exhibir un comportamiento interactivo y orientado a objetivos para realizar tareas específicas. Esto requiere dos habilidades críticas: buscar activamente información sobre la tarea y tomar decisiones que se puedan mejorar mediante el “pensamiento” y la verificación en el momento de la inferencia. Las metodologías actuales tienen dificultades para lograr estas capacidades, en particular en tareas complejas que requieren razonamiento lógico. Si bien los LLM a menudo poseen el conocimiento necesario, con frecuencia no lo aplican de manera efectiva cuando se les pide que corrijan sus propios errores de manera secuencial. Esta limitación resalta la necesidad de un enfoque más sólido para permitir la autosuperación en el momento de la prueba en los agentes LLM.
Los investigadores han intentado diversos enfoques para mejorar las capacidades de razonamiento y pensamiento de los modelos básicos para aplicaciones posteriores. Estos métodos se centran principalmente en el desarrollo de técnicas de estímulo para una interacción eficaz en múltiples turnos con herramientas externas, el refinamiento secuencial de predicciones mediante la reflexión, la verbalización de pensamientos, la autocrítica y la revisión, o el uso de otros modelos para la crítica de las respuestas. Si bien algunos de estos enfoques son prometedores para mejorar las respuestas, a menudo se basan en rastros de errores detallados o en retroalimentación externa para tener éxito.
Las técnicas de estímulo, aunque útiles, tienen limitaciones. Los estudios indican que la autocorrección intrínseca guiada únicamente por el LLM en sí mismo a menudo no es viable para los modelos estándar, incluso cuando poseen el conocimiento necesario para abordar el estímulo. También se ha explorado el ajuste fino de los LLM para obtener capacidades de automejora, utilizando estrategias como el entrenamiento en respuestas autogeneradas, verificadores aprendidos, algoritmos de búsqueda, estímulo contrastivo sobre datos negativos y aprendizaje supervisado o de refuerzo iterado.
Sin embargo, estos métodos existentes se centran principalmente en mejorar el rendimiento de un solo turno en lugar de introducir la capacidad de mejorar el rendimiento en turnos secuenciales de interacción. Si bien algunos trabajos han explorado el ajuste fino de los LLM para la interacción de múltiples turnos directamente a través del aprendizaje de refuerzo, este enfoque aborda desafíos diferentes a los que plantean los problemas de un solo turno en escenarios de múltiples turnos.
Investigadores de la Universidad Carnegie Mellon, UC Berkeley y MultiOn presentan RISE (Introducción recursiva)un enfoque único para mejorar las capacidades de autosuperación de los LLM. Este método emplea un procedimiento iterativo de ajuste fino que enmarca las indicaciones de un solo turno como procesos de decisión de Markov de múltiples turnos. Al incorporar principios del aprendizaje por imitación en línea y el aprendizaje por refuerzo, RISE desarrolla estrategias para la recopilación y el entrenamiento de datos de múltiples turnos. Este enfoque permite a los LLM detectar y corregir errores de forma recursiva en iteraciones posteriores, una capacidad que antes se consideraba difícil de alcanzar. A diferencia de los métodos tradicionales centrados en el rendimiento de un solo turno, RISE tiene como objetivo inculcar la autosuperación dinámica en los LLM, revolucionando potencialmente sus habilidades de resolución de problemas en escenarios complejos.
RISE presenta un enfoque innovador para ajustar los modelos de base para la autosuperación en múltiples turnos. El método comienza convirtiendo problemas de un solo turno en un proceso de decisión de Markov (MDP) de múltiples turnos. Esta construcción de MDP transforma las indicaciones en estados iniciales, y las respuestas del modelo sirven como acciones. El siguiente estado se crea concatenando el estado actual, la acción del modelo y una indicación de introspección fija. Las recompensas se basan en la exactitud de las respuestas. A continuación, RISE emplea estrategias para la recopilación de datos y el aprendizaje dentro de este marco de MDP. El enfoque utiliza la destilación de un modelo más capaz o la autodestilación para generar respuestas mejoradas. Por último, RISE aplica un aprendizaje supervisado ponderado por recompensas para entrenar el modelo, lo que le permite mejorar sus predicciones en intentos secuenciales.
RISE demuestra mejoras significativas en el rendimiento en múltiples pruebas comparativas. En GSM8K, RISE aumentó el rendimiento de cinco turnos del modelo base LLama2 en un 15,1% y un 17,7% después de una y dos iteraciones respectivamente, sin usar un oráculo. En MATH, se observaron mejoras del 3,4% y del 4,6%. Estas mejoras superan las logradas con otros métodos, incluido el autorefinamiento con solo indicaciones y el ajuste fino estándar en datos de oráculo. Cabe destacar que RISE supera el muestreo de múltiples respuestas en paralelo, lo que indica su capacidad para corregir errores genuinamente en turnos secuenciales. La eficacia del método persiste en diferentes modelos base, y Mistral-7B + RISE supera a Eurus-7B-SFT, un modelo específicamente ajustado para el razonamiento matemático. Además, una versión de autodestilación de RISE es prometedora, ya que mejora el rendimiento de cinco turnos incluso con datos y supervisión completamente autogenerados.
RISE presenta un enfoque único para ajustar los modelos de lenguaje grandes para mejorar sus respuestas en múltiples turnos. Al convertir problemas de un solo turno en procesos de decisión de Markov de múltiples turnos, RISE emplea aprendizaje de refuerzo iterativo en datos de implementación de políticas, utilizando supervisión experta o autogenerada. El método mejora significativamente las capacidades de automejora de los modelos 7B en tareas de razonamiento, superando los enfoques anteriores. Los resultados muestran ganancias de rendimiento consistentes en diferentes modelos base y tareas, lo que demuestra una corrección de errores secuencial genuina. Si bien las restricciones computacionales limitan actualmente el número de iteraciones de entrenamiento, especialmente con supervisión autogenerada, RISE presenta una dirección prometedora para avanzar en las capacidades de automejora de LLM.
Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.