La alineación de los modelos lingüísticos es muy importante, en particular en un subconjunto de métodos de RLHF que se han aplicado para fortalecer la seguridad y la competencia de los sistemas de IA. Los modelos lingüísticos se implementan en muchas aplicaciones en la actualidad y sus resultados pueden ser perjudiciales o sesgados. La alineación inherente de las preferencias humanas en el marco de RLHF garantiza que sus comportamientos sean éticos y socialmente aplicables. Este es un proceso fundamental para evitar la difusión de información errónea y contenido perjudicial y garantizar que la IA se desarrolle para mejorar la sociedad.
La principal dificultad de la RLHF radica en el hecho de que los datos de preferencias deben anotarse mediante un proceso que exige muchos recursos y creatividad. Los investigadores necesitan ayuda con la recopilación de datos diversificados y de alta calidad para entrenar modelos que puedan representar las preferencias humanas con mayor precisión. Los métodos tradicionales, como la elaboración manual de indicaciones y respuestas, son inherentemente limitados y dan lugar a sesgos, lo que complica la ampliación de los procesos de anotación de datos eficaces. Este desafío obstaculiza el desarrollo de una IA segura que pueda comprender las interacciones humanas matizadas.
Los métodos actuales para la generación de datos de preferencias en el plano dependen en gran medida de la anotación humana o de unas pocas técnicas de generación automática. La mayoría de estos métodos deben basarse en escenarios creados o instrucciones iniciales y, por lo tanto, es probable que tengan una baja diversidad, lo que introduce subjetividad en los datos. Además, es una tarea que requiere mucho tiempo y dinero para obtener las preferencias de los evaluadores humanos tanto para las respuestas preferidas como para las despreferidas. Además, muchos modelos expertos utilizados para generar datos tienen filtros de seguridad fuertes, lo que hace que sea muy difícil desarrollar las respuestas despreferidas necesarias para construir conjuntos de datos de preferencias de seguridad completos.
En esta línea de pensamiento, los investigadores de la Universidad del Sur de California presentaron SAFER-INSTRUCT, un nuevo proceso para construir automáticamente datos de preferencias a gran escala. Aplica el ajuste de instrucciones inversas, la inducción y la evaluación de un modelo experto para generar datos de preferencias de alta calidad sin anotaciones humanas. El proceso queda así automatizado; por lo tanto, SAFER-INSTRUCT permite crear datos más diversificados y contextualmente relevantes, mejorando la seguridad y la alineación de los modelos lingüísticos. Este método simplifica el proceso de anotación de datos y amplía su aplicabilidad en diferentes dominios, lo que lo convierte en una herramienta versátil para el desarrollo de la IA.
El proceso comienza con un ajuste de instrucciones inverso, en el que se entrena a un modelo para que genere instrucciones basadas en respuestas, lo que básicamente realiza una inducción de instrucciones. Mediante este método, sería fácil producir una gran variedad de instrucciones sobre temas específicos, como el discurso de odio o la autolesión, sin necesidad de indicaciones manuales. La calidad de las instrucciones generadas se filtra y un modelo experto genera las respuestas preferidas. Estas respuestas se someten a un nuevo filtrado según las preferencias humanas. El resultado de este riguroso proceso será un conjunto de datos de preferencias completo para ajustar los modelos lingüísticos de manera que sean seguros y eficaces.
Para probar el rendimiento del marco SAFER-INSTRUCT se evaluó un modelo Alpaca ajustado con precisión al conjunto de datos de preferencia de seguridad generado. Los resultados fueron excelentes; superó al resto de los modelos basados en Alpaca en cuanto a inocuidad, con enormes mejoras en las métricas de seguridad. Precisamente, el modelo entrenado con datos SAFER-INSTRUCT alcanzó el 94,7 % de la tasa de inocuidad cuando se evaluó con Claude 3, significativamente más alto en comparación con los modelos ajustados con datos anotados por humanos: 86,3 %. Continuó siendo conversacional y competitivo en tareas posteriores, lo que indica que las mejoras de seguridad no se produjeron a costa de otras capacidades. Este desempeño demuestra la eficacia de SAFER-INSTRUCT para avanzar hacia la creación de sistemas de IA más seguros y, al mismo tiempo, más capaces.
Es decir, los investigadores de la Universidad del Sur de California abordaron uno de los problemas espinosos de la anotación de datos de preferencias en RLHF al introducir SAFER-INSTRUCT. Este proceso creativo no solo automatizó la construcción de datos de preferencias a gran escala, aumentando, en caso necesario, la seguridad y la alineación sin sacrificar el rendimiento de los modelos de lenguaje, sino que la versatilidad de este marco resultó muy útil en el desarrollo de la IA durante muchos años, al garantizar que los modelos de lenguaje pudieran ser seguros y efectivos en muchas aplicaciones.
Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios
Encuentra lo próximo Seminarios web sobre IA aquí
Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.