ProgressGym: un marco de aprendizaje automático para la alineación ética dinámica en sistemas de inteligencia artificial de vanguardia

Los sistemas de IA de vanguardia, incluidos los LLM, moldean cada vez más las creencias y los valores humanos al actuar como asistentes personales, educadores y autores. Estos sistemas, entrenados con grandes cantidades de datos humanos, a menudo reflejan y propagan los sesgos sociales existentes. Este fenómeno, conocido como bloqueo de valores, puede arraigar creencias y prácticas morales erróneas a escala social, lo que podría reforzar comportamientos problemáticos como la inacción climática y la discriminación. Los métodos actuales de alineación de la IA, como el aprendizaje por refuerzo a partir de la retroalimentación humana, deben revisarse para evitar esto. Los sistemas de IA deben incorporar mecanismos que emulen el progreso moral impulsado por los humanos para abordar el bloqueo de valores, promoviendo la evolución ética continua.

Investigadores de la Universidad de Pekín y la Universidad de Cornell presentan la “alineación del progreso” como una solución para mitigar el bloqueo de valores en los sistemas de IA. Presentan ProgressGym, un marco innovador que aprovecha nueve siglos de textos históricos y 18 LLM históricos para aprender y emular el progreso moral humano. ProgressGym se centra en tres desafíos centrales: rastrear valores en evolución, predecir cambios morales futuros y regular el ciclo de retroalimentación entre los valores humanos y los de la IA. El marco transforma estos desafíos en puntos de referencia mensurables e incluye algoritmos de referencia para la alineación del progreso. ProgressGym tiene como objetivo fomentar la evolución ética continua en la IA al abordar la dimensión temporal de la alineación.

La investigación sobre la alineación de la IA se centra cada vez más en garantizar que los sistemas, especialmente los LLM, se alineen con las preferencias humanas, desde los tonos superficiales hasta los valores profundos como la justicia y la moralidad. Los métodos tradicionales, como el ajuste fino supervisado y el aprendizaje de refuerzo a partir de la retroalimentación humana, a menudo se basan en preferencias estáticas, que pueden perpetuar los sesgos. Los enfoques recientes, como Dynamic Reward MDP y On-the-fly Preference Optimization, abordan las preferencias en evolución, pero necesitan un marco unificado. La alineación del progreso propone emular el progreso moral humano dentro de la IA para alinear los valores cambiantes. Este enfoque tiene como objetivo mitigar los daños epistemológicos de los LLM, como la desinformación, y promover el desarrollo ético continuo, lo que sugiere una combinación de soluciones técnicas y sociales.

La alineación del progreso busca modelar y promover el progreso moral dentro de los sistemas de IA. Está formulada como un POMDP temporal, donde la IA interactúa con los valores humanos en evolución, y el éxito se mide por la alineación con estos valores. El marco ProgressGym respalda esto al proporcionar amplios datos de texto históricos y modelos de los siglos XIII al XXI. Este marco incluye tareas como el seguimiento, la predicción y la coevolución con los valores humanos. El vasto conjunto de datos de ProgressGym y los diversos algoritmos permiten probar y desarrollar métodos de alineación, abordando la naturaleza cambiante de la moralidad humana y el papel de la IA.

ProgressGym ofrece un marco unificado para implementar desafíos de alineación con el progreso, representándolos como POMDP temporales. Cada desafío alinea el comportamiento de la IA con los valores humanos en evolución a lo largo de nueve siglos. El marco utiliza una representación estandarizada de los estados de valor humanos, las acciones de la IA en los diálogos y las observaciones de las respuestas humanas. Los desafíos incluyen PG-Follow, que garantiza la alineación de la IA con los valores actuales; PG-Predict, que prueba la capacidad de la IA para anticipar los valores futuros; y PG-Coevolve, que examina la influencia mutua entre la IA y los valores humanos. Estos puntos de referencia ayudan a medir la alineación de la IA con el progreso histórico y moral y anticipar los cambios futuros.

En el marco de ProgressGym, los algoritmos de alineación permanente y extrapolativo se evalúan como puntos de referencia para la alineación del progreso. Los algoritmos permanentes aplican continuamente métodos de alineación clásicos, ya sea de forma iterativa o independiente. Los algoritmos extrapolativos predicen los valores humanos futuros y alinean los modelos de IA en consecuencia, utilizando operadores de diferencia hacia atrás para extender las preferencias humanas temporalmente. Los resultados experimentales sobre tres desafíos centrales (PG-Follow, PG-Predict y PG-Coevolve) revelan que, si bien los algoritmos permanentes funcionan bien, los métodos extrapolativos a menudo superan a los de extrapolación de orden superior. Estos hallazgos sugieren que el modelado predictivo es crucial para alinear eficazmente la IA con los valores humanos en evolución a lo largo del tiempo.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 45 000 millones de usuarios


Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.