El aprendizaje por refuerzo (RL) ha sido fundamental en el avance de la inteligencia artificial al permitir que los modelos aprendan de sus interacciones con el medio ambiente. Tradicionalmente, el aprendizaje por refuerzo se basa en recompensas por las acciones positivas y sanciones por las negativas. Un enfoque reciente, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), ha aportado mejoras notables a los modelos de lenguajes grandes (LLM) al incorporar las preferencias humanas en el proceso de capacitación. RLHF garantiza que los sistemas de IA se comporten de manera alineada con los valores humanos. Sin embargo, recopilar y procesar esta retroalimentación requiere muchos recursos y requiere grandes conjuntos de datos de preferencias etiquetadas por humanos. Dado que los sistemas de IA crecen en escala y complejidad, los investigadores están explorando formas más eficientes de mejorar el rendimiento del modelo sin depender únicamente de la aportación humana.

Los modelos entrenados con RLHF necesitan grandes cantidades de datos de preferencias para tomar decisiones que se alineen con las expectativas del usuario. Como la recopilación de datos humanos es costosa, el proceso crea un cuello de botella que ralentiza el desarrollo del modelo. Además, la dependencia de la retroalimentación humana limita la generalización de los modelos a nuevas tareas que aún no han encontrado durante el entrenamiento. Esto puede provocar un rendimiento deficiente cuando los modelos se implementan en entornos del mundo real que necesitan manejar escenarios desconocidos o fuera de distribución (OOD). Abordar este problema requiere un método que reduzca la dependencia de los datos humanos y mejore la generalización del modelo.

Los enfoques actuales como el RLHF han demostrado ser útiles, pero tienen limitaciones. En RLHF, los modelos se refinan en función de la retroalimentación proporcionada por humanos, lo que implica clasificar los resultados según las preferencias del usuario. Si bien este método mejora la alineación, puede resultar ineficaz. Una alternativa reciente, el aprendizaje reforzado a partir de retroalimentación de IA (RLAIF), busca superar esto utilizando retroalimentación generada por IA. Un modelo utiliza directrices predefinidas, o una “constitución”, para evaluar sus resultados. Aunque RLAIF reduce la dependencia de la aportación humana, estudios recientes muestran que la retroalimentación generada por IA puede desalinearse con las preferencias humanas reales, lo que resulta en un rendimiento subóptimo. Esta desalineación es particularmente evidente en tareas fuera de distribución donde el modelo necesita comprender expectativas humanas matizadas.

Los investigadores de SynthLabs y la Universidad de Stanford introdujeron una solución híbrida: Modelos de recompensa generativos (GenRM). Este nuevo método combina los puntos fuertes de ambos enfoques para entrenar modelos de forma más eficaz. GenRM utiliza un proceso iterativo para ajustar los LLM generando rastros de razonamiento, que actúan como etiquetas de preferencia sintéticas. Estas etiquetas reflejan mejor las preferencias humanas y al mismo tiempo eliminan la necesidad de una amplia retroalimentación humana. El marco GenRM cierra la brecha entre RLHF y RLAIF al permitir que la IA genere sus datos y se perfeccione continuamente. La introducción de rastros de razonamiento ayuda al modelo a imitar el proceso de pensamiento humano detallado que mejora la precisión de la toma de decisiones, particularmente en tareas más complejas.

GenRM aprovecha un gran LLM previamente capacitado para generar cadenas de razonamiento que ayuden a la toma de decisiones. El razonamiento en cadena de pensamiento (CoT) se incorpora al flujo de trabajo del modelo, donde la IA genera un razonamiento paso a paso antes de concluir. Este razonamiento autogenerado sirve como retroalimentación para el modelo, que se perfecciona aún más en ciclos iterativos. El modelo GenRM se compara favorablemente con los métodos tradicionales como los modelos de recompensa Bradley-Terry y DPO (Optimización de preferencias directas), superándolos en precisión entre un 9% y un 31% en tareas dentro de la distribución y entre un 10% y un 45% en tareas fuera de la distribución. Estos refinamientos iterativos reducen la carga de recursos y mejoran la capacidad del modelo para generalizar entre tareas.

En tareas de distribución, donde los modelos se prueban en problemas que han visto antes, GenRM funciona de manera similar al modelo de recompensa Bradley-Terry, manteniendo altas tasas de precisión. Sin embargo, la verdadera ventaja de GenRM es evidente en las tareas OOD. Por ejemplo, GenRM supera a los modelos tradicionales en un 26 % en tareas de generalización, lo que lo hace más adecuado para aplicaciones del mundo real donde se requieren sistemas de IA para manejar escenarios nuevos o inesperados. Además, los modelos que utilizan GenRM mostraron mejoras en la reducción de errores en la toma de decisiones y proporcionar resultados más precisos alineados con los valores humanos, demostrando entre un 9 % y un 31 % de mejora en el rendimiento en tareas que requieren un razonamiento complejo. El modelo también superó a los jueces de LLM, que dependen únicamente de la retroalimentación de la IA, lo que muestra un enfoque más equilibrado para la optimización de la retroalimentación.

Conclusiones clave de la investigación:

  • Mayor rendimiento: GenRM mejora el rendimiento de las tareas en distribución entre un 9% y un 31% y las tareas OOD entre un 10% y un 45%, lo que muestra capacidades de generalización superiores.
  • Reducción de la dependencia de la retroalimentación humana: Los rastros de razonamiento generados por IA reemplazan la necesidad de grandes conjuntos de datos etiquetados por humanos, lo que acelera el proceso de retroalimentación.
  • Generalización fuera de distribución mejorada: GenRM funciona un 26 % mejor que los modelos tradicionales en tareas desconocidas, lo que mejora la solidez en escenarios del mundo real.
  • Enfoque equilibrado: El uso híbrido de IA y retroalimentación humana garantiza que los sistemas de IA se mantengan alineados con los valores humanos y, al mismo tiempo, reduce los costos de capacitación.
  • Aprendizaje iterativo: El refinamiento continuo a través de cadenas de razonamiento mejora la toma de decisiones en tareas complejas, mejorando la precisión y reduciendo los errores.

En conclusión, la introducción de los modelos de recompensa generativos presenta un poderoso paso adelante en el aprendizaje por refuerzo. La combinación de comentarios humanos con razonamiento generado por IA permite un entrenamiento de modelos más eficiente sin sacrificar el rendimiento. GenRM resuelve dos problemas críticos: reduce la necesidad de una recopilación de datos humanos que requiere mucha mano de obra y, al mismo tiempo, mejora la capacidad del modelo para manejar tareas nuevas y no capacitadas. Al integrar RLHF y RLAIF, GenRM representa una solución escalable y adaptable para promover la alineación de la IA con los valores humanos. El sistema híbrido aumenta la precisión en la distribución y mejora significativamente el rendimiento fuera de la distribución, lo que lo convierte en un marco prometedor para la próxima generación de sistemas inteligentes.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.