¿Se pueden ajustar los modelos de aprendizaje automático de manera más eficiente?  Este artículo sobre IA de Cohere for AI revela cómo REINFORCE supera a PPO en aprendizaje por refuerzo a partir de la retroalimentación humana

La alineación de los modelos de lenguajes grandes (LLM) con las preferencias humanas se ha convertido en un área de investigación crucial. A medida que estos modelos ganan complejidad y capacidad, es primordial garantizar que sus acciones y resultados se alineen con los valores e intenciones humanos. La ruta convencional hacia esta alineación ha implicado sofisticadas técnicas de aprendizaje por refuerzo, con la Optimización de Políticas Próximas (PPO) a la cabeza. Si bien es efectivo, este método presenta sus propios desafíos, incluidas altas demandas computacionales y la necesidad de delicados ajustes de hiperparámetros. Estos desafíos plantean la pregunta: ¿Existe una manera más eficiente pero igualmente efectiva de lograr el mismo objetivo?

Un equipo de investigación de Cohere For AI y Cohere realizó una exploración para abordar esta pregunta, centrándose en un enfoque menos intensivo desde el punto de vista computacional que no comprometa el rendimiento. Revisaron los fundamentos del aprendizaje por refuerzo en el contexto de la retroalimentación humana, evaluando específicamente la eficiencia de las variantes de optimización del estilo REINFORCE frente al PPO tradicional y el reciente “libre de RL”Métodos como DPO y RAFT. Su investigación reveló que métodos más simples podrían igualar o incluso superar el desempeño de sus contrapartes más complejas a la hora de alinear los LLM con las preferencias humanas.

La metodología empleada analizó el componente RL de RLHF, eliminando las complejidades asociadas con la PPO para resaltar la eficacia de enfoques más simples y directos. A través de su análisis, identificaron que los principios básicos que impulsan el desarrollo de PPO, principalmente su enfoque en minimizar la variación y maximizar la estabilidad en las actualizaciones, pueden no ser tan críticos en el contexto de RLHF como se pensaba anteriormente.

Su análisis empírico, utilizando conjuntos de datos de Google Vizier, demostró una mejora notable en el rendimiento al emplear REINFORCE y su extensión de muestras múltiples, REINFORCE Leave-One-Out (RLOO), en comparación con los métodos tradicionales. Sus hallazgos mostraron un aumento de más del 20 % en el rendimiento, lo que marca un importante avance en la eficiencia y eficacia de la alineación del LLM con las preferencias humanas.

Esta investigación desafía las normas predominantes con respecto a la necesidad de métodos complejos de aprendizaje por refuerzo para la alineación del LLM y abre la puerta a alternativas más accesibles y potencialmente más efectivas. Los conocimientos clave de este estudio subrayan el potencial de variantes de aprendizaje por refuerzo más simples para lograr una alineación LLM de alta calidad a un costo computacional más bajo.

En conclusión, la investigación de Cohere sugiere algunas ideas clave, que incluyen:

  • Simplificar el componente RL de RLHF puede conducir a una mejor alineación de los LLM con las preferencias humanas sin sacrificar la eficiencia computacional.
  • Es posible que los métodos tradicionales y complejos, como la PPO, no sean indispensables en entornos de RLHF, lo que allana el camino para alternativas más simples y eficientes.
  • REINFORCE y su extensión de muestras múltiples, RLOO, emergen como candidatos prometedores, ya que ofrecen una combinación de rendimiento y eficiencia computacional que desafía el status quo.

Este trabajo marca un cambio fundamental en el enfoque de la alineación de LLM, lo que sugiere que la simplicidad, en lugar de la complejidad, podría ser la clave para una alineación más efectiva y eficiente de la inteligencia artificial con los valores y preferencias humanos.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.