Los investigadores de Google DeepMind proponen WARM: un enfoque novedoso para abordar la piratería de recompensas en modelos de lenguaje grandes utilizando modelos de recompensa de peso promedio

En los últimos tiempos, los modelos de lenguaje grande (LLM) han ganado popularidad por su capacidad para responder a las consultas de los usuarios de una manera más humana, lo que se logra mediante el aprendizaje por refuerzo. Sin embargo, alinear estos LLM con las preferencias humanas en el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) puede conducir a un fenómeno conocido como piratería de recompensas. Esto ocurre cuando los LLM explotan fallas en el modelo de recompensa (RM), logrando altas recompensas sin cumplir los objetivos subyacentes, como se ilustra en la Figura 1 (b). El hacking de recompensas plantea preocupaciones como la degradación del rendimiento, desafíos en la selección de puntos de control, posibles sesgos y, lo más importante, riesgos de seguridad.

Los principales desafíos identificados al diseñar RM para mitigar la piratería de recompensas incluyen cambios en la distribución y preferencias inconsistentes en el conjunto de datos de preferencias. Los cambios en la distribución surgen debido a la deriva de las políticas durante la RL, lo que lleva a una desviación del conjunto de datos de preferencias fuera de línea. Las preferencias inconsistentes surgen de etiquetas binarias ruidosas, lo que introduce un bajo acuerdo entre etiquetadores y afecta la solidez de RM. Para abordar estos desafíos, los enfoques existentes han explorado estrategias como la regularización de KL, el aprendizaje activo y el conjunto de predicciones (ENS). Sin embargo, estos métodos enfrentan problemas de eficiencia, preocupaciones de confiabilidad y luchan contra inconsistencias de preferencias.

Para abordar estos desafíos, este artículo propone W.ocho Apromediado Reward METROmodelos (CÁLIDO) (ilustrado en la Figura 1(a)), una estrategia simple, eficiente y escalable para obtener un RM confiable y robusto. WARM combina múltiples RM mediante interpolación lineal en el espacio de peso, lo que brinda beneficios como eficiencia, confiabilidad mejorada en cambios de distribución y mayor solidez para etiquetar la corrupción. La diversidad entre pesos ajustados es un factor clave para la eficacia de WARM.

WARM se compara con el conjunto de predicción (ENS), lo que demuestra su eficiencia y practicidad al requerir un único modelo en el momento de la inferencia, lo que elimina los gastos generales de memoria e inferencia. Los resultados empíricos indican que WARM funciona de manera similar a ENS en términos de reducción de la varianza, pero muestra superioridad bajo cambios de distribución. El artículo presenta el concepto de conectividad en modo lineal (LMC) como un factor clave en el éxito de WARM, demostrando su capacidad para memorizar menos y generalizar mejor que el conjunto de predicciones. Hay 3 observaciones que se realizan en los experimentos y se prueban empíricamente en las Figuras 3 y 4:

  • Observación 1 (LMC): La precisión del modelo interpolado es al menos tan buena como la interpolación de las precisiones individuales.
  • Observación 2 (WA y ENS): El promedio de peso y el conjunto de predicción funcionan de manera similar.
  • Observación 3 (WA y ENS): Las ganancias en precisión de WA sobre ENS crecen a medida que los datos se alejan de la distribución del entrenamiento.

Los beneficios de WARM se extienden más allá de sus objetivos principales. Se alinea con el paradigma de aprendizaje automático actualizable, lo que permite la paralelización en escenarios de aprendizaje federado. WARM podría contribuir a la privacidad y la mitigación de prejuicios al reducir la memorización de preferencias privadas. El método muestra potencial para combinar RM entrenados en diferentes conjuntos de datos, respaldando preferencias iterativas y en evolución. Una exploración adicional incluye extender WARM a estrategias de optimización de preferencias directas.

A pesar de su innovación, WARM tiene limitaciones en comparación con los métodos de ensamblaje de predicción, incluidas limitaciones potenciales en el manejo de diversas arquitecturas y estimación de incertidumbre. WARM no elimina por completo las correlaciones espurias o los sesgos en los datos de preferencias, lo que sugiere la necesidad de métodos adicionales para una solución integral. Por último, WARM se centra en mejorar el modelado de recompensas y debe considerarse dentro del contexto más amplio de la IA responsable para abordar los riesgos de seguridad derivados de la desalineación.

En conclusión, los modelos de recompensa con promedio de peso (WARM) ofrecen una solución prometedora a los desafíos en el modelado de recompensas, mejorando la alineación en RLHF. Los resultados empíricos y los conocimientos teóricos del artículo posicionan a WARM como una contribución valiosa hacia la creación de sistemas de IA más alineados, transparentes y eficaces.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.