El desarrollo de la inteligencia artificial (IA), en particular en los modelos de lenguaje de gran tamaño (LLM), se centra en alinear estos modelos con las preferencias humanas para mejorar su eficacia y seguridad. Esta alineación es fundamental para perfeccionar las interacciones de la IA con los usuarios, garantizando que las respuestas generadas sean precisas y estén alineadas con las expectativas y los valores humanos. Para lograrlo, se requiere una combinación de datos de preferencias, que informan al modelo sobre los resultados deseables, y objetivos de alineación que guían el proceso de entrenamiento. Estos elementos son cruciales para mejorar el rendimiento del modelo y su capacidad para satisfacer las expectativas de los usuarios.
Un desafío importante en la alineación de modelos de IA radica en el problema de la subespecificación, donde la relación entre los datos de preferencia y los objetivos de entrenamiento no está claramente definida. Esta falta de claridad puede conducir a un desempeño subóptimo, ya que el modelo puede necesitar ayuda para aprender de manera efectiva a partir de los datos proporcionados. La subespecificación ocurre cuando los pares de preferencias utilizados para entrenar el modelo contienen diferencias irrelevantes para el resultado deseado. Estas diferencias espurias complican el proceso de aprendizaje, lo que dificulta que el modelo se concentre en los aspectos que realmente importan. Los métodos de alineación actuales a menudo necesitan tener en cuenta de manera más adecuada la relación entre el desempeño del modelo y los datos de preferencia, lo que puede conducir a una degradación de las capacidades del modelo.
Los métodos existentes para alinear los LLM, como los que se basan en objetivos de aprendizaje contrastivos y conjuntos de datos de pares de preferencias, han logrado avances significativos, pero deben revisarse. Estos métodos generalmente implican generar dos resultados a partir del modelo y utilizar un juez, otro modelo de IA o un humano para seleccionar el resultado preferido. Sin embargo, este enfoque puede generar señales de preferencia inconsistentes, ya que los criterios para elegir la respuesta preferida solo a veces pueden ser claros o consistentes. Esta inconsistencia en la señal de aprendizaje puede obstaculizar la capacidad del modelo para mejorar de manera efectiva durante el entrenamiento, ya que el modelo solo a veces puede recibir una guía clara sobre cómo ajustar sus resultados para alinearse mejor con las preferencias humanas.
Investigadores de la Universidad de Gante – imec, la Universidad de Stanford y Contextual AI han presentado dos métodos innovadores para abordar estos desafíos: Aprendizaje contrastivo a partir de revisiones de IA (CLAIR) y Optimización de preferencias ancladas (APO)CLAIR es un nuevo método de creación de datos diseñado para generar pares de preferencias mínimamente contrastantes mediante una ligera revisión de la salida de un modelo para crear una respuesta preferida. Este método garantiza que el contraste entre las salidas ganadoras y perdedoras sea mínimo pero significativo, lo que proporciona una señal de aprendizaje más precisa para el modelo. Por otro lado, APO es una familia de objetivos de alineación que ofrecen un mayor control sobre el proceso de entrenamiento. Al tener en cuenta explícitamente la relación entre el modelo y los datos de preferencia, APO garantiza que el proceso de alineación sea más estable y eficaz.
El método CLAIR funciona generando primero un resultado perdedor a partir del modelo objetivo y luego utilizando un modelo más fuerte, como GPT-4-turbo, para revisar este resultado y convertirlo en uno ganador. Este proceso de revisión está diseñado para realizar solo cambios mínimos, lo que garantiza que el contraste entre los dos resultados se centre en los aspectos más relevantes. Este enfoque difiere significativamente de los métodos tradicionales, que pueden depender de que un juez seleccione el resultado preferido entre dos respuestas generadas de forma independiente. Al crear pares de preferencias con contrastes mínimos pero significativos, CLAIR proporciona una señal de aprendizaje más clara y eficaz para el modelo durante el entrenamiento.
La optimización de preferencias ancladas (APO) complementa a CLAIR al ofrecer un control detallado del proceso de alineación. La APO ajusta la probabilidad de obtener o perder resultados en función del rendimiento del modelo en relación con los datos de preferencias. Por ejemplo, la variante APO-cero aumenta la probabilidad de obtener resultados ganadores y disminuye la probabilidad de perderlos, lo que resulta particularmente útil cuando los resultados del modelo son, en general, menos deseables que los resultados ganadores. Por el contrario, la variante APO-abajo disminuye la probabilidad de obtener o perder resultados, lo que puede resultar beneficioso cuando los resultados del modelo ya son mejores que las respuestas preferidas. Este nivel de control permite a los investigadores adaptar el proceso de alineación de forma más precisa a las necesidades específicas del modelo y los datos.
La eficacia de CLAIR y APO se demostró alineando el modelo Llama-3-8B-Instruct utilizando una variedad de conjuntos de datos y objetivos de alineación. Los resultados fueron significativos: CLAIR, combinado con el objetivo APO-zero, generó una mejora del 7,65 % en el rendimiento en el punto de referencia MixEval-Hard, que mide la precisión del modelo en una variedad de consultas complejas. Esta mejora representa un paso sustancial hacia el cierre de la brecha de rendimiento entre Llama-3-8B-Instruct y GPT-4-turbo, reduciendo la diferencia en un 45 %. Estos resultados resaltan la importancia de los pares de preferencias mínimamente contrastantes y los objetivos de alineación personalizados para mejorar el rendimiento del modelo de IA.
En conclusión, CLAIR y APO ofrecen un enfoque más eficaz para alinear los LLM con las preferencias humanas, abordando los desafíos de la subespecificación y brindando un control más preciso sobre el proceso de entrenamiento. Su éxito en la mejora del rendimiento del modelo Llama-3-8B-Instruct subraya su potencial para mejorar el proceso de alineación de los modelos de IA de manera más amplia.
Echa un vistazo a la Papel, Modeloy GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Más de 49 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.