Investigadores de la USC presentan Safer-Instruct: una nueva metodología para construir automáticamente datos de preferencias a gran escala

La alineación de los modelos lingüísticos es muy importante, en particular en un subconjunto de métodos de RLHF que se han aplicado para fortalecer la seguridad y la competencia de los sistemas de IA. Los modelos lingüísticos se implementan en muchas aplicaciones en la actualidad y sus resultados pueden ser perjudiciales o sesgados. La alineación inherente de las preferencias humanas en el marco de RLHF garantiza que sus comportamientos sean éticos y socialmente aplicables. Este es un proceso fundamental para evitar la difusión de información errónea y contenido perjudicial y garantizar que la IA se desarrolle para mejorar la sociedad.

La principal dificultad de la RLHF radica en el hecho de que los datos de preferencias deben anotarse mediante un proceso que exige muchos recursos y creatividad. Los investigadores necesitan ayuda con la recopilación de datos diversificados y de alta calidad para entrenar modelos que puedan representar las preferencias humanas con mayor precisión. Los métodos tradicionales, como la elaboración manual de indicaciones y respuestas, son inherentemente limitados y dan lugar a sesgos, lo que complica la ampliación de los procesos de anotación de datos eficaces. Este desafío obstaculiza el desarrollo de una IA segura que pueda comprender las interacciones humanas matizadas.

Los métodos actuales para la generación de datos de preferencias en el plano dependen en gran medida de la anotación humana o de unas pocas técnicas de generación automática. La mayoría de estos métodos deben basarse en escenarios creados o instrucciones iniciales y, por lo tanto, es probable que tengan una baja diversidad, lo que introduce subjetividad en los datos. Además, es una tarea que requiere mucho tiempo y dinero para obtener las preferencias de los evaluadores humanos tanto para las respuestas preferidas como para las despreferidas. Además, muchos modelos expertos utilizados para generar datos tienen filtros de seguridad fuertes, lo que hace que sea muy difícil desarrollar las respuestas despreferidas necesarias para construir conjuntos de datos de preferencias de seguridad completos.

En esta línea de pensamiento, los investigadores de la Universidad del Sur de California presentaron SAFER-INSTRUCT, un nuevo proceso para construir automáticamente datos de preferencias a gran escala. Aplica el ajuste de instrucciones inversas, la inducción y la evaluación de un modelo experto para generar datos de preferencias de alta calidad sin anotaciones humanas. El proceso queda así automatizado; por lo tanto, SAFER-INSTRUCT permite crear datos más diversificados y contextualmente relevantes, mejorando la seguridad y la alineación de los modelos lingüísticos. Este método simplifica el proceso de anotación de datos y amplía su aplicabilidad en diferentes dominios, lo que lo convierte en una herramienta versátil para el desarrollo de la IA.

El proceso comienza con un ajuste de instrucciones inverso, en el que se entrena a un modelo para que genere instrucciones basadas en respuestas, lo que básicamente realiza una inducción de instrucciones. Mediante este método, sería fácil producir una gran variedad de instrucciones sobre temas específicos, como el discurso de odio o la autolesión, sin necesidad de indicaciones manuales. La calidad de las instrucciones generadas se filtra y un modelo experto genera las respuestas preferidas. Estas respuestas se someten a un nuevo filtrado según las preferencias humanas. El resultado de este riguroso proceso será un conjunto de datos de preferencias completo para ajustar los modelos lingüísticos de manera que sean seguros y eficaces.

Para probar el rendimiento del marco SAFER-INSTRUCT se evaluó un modelo Alpaca ajustado con precisión al conjunto de datos de preferencia de seguridad generado. Los resultados fueron excelentes; superó al resto de los modelos basados en Alpaca en cuanto a inocuidad, con enormes mejoras en las métricas de seguridad. Precisamente, el modelo entrenado con datos SAFER-INSTRUCT alcanzó el 94,7 % de la tasa de inocuidad cuando se evaluó con Claude 3, significativamente más alto en comparación con los modelos ajustados con datos anotados por humanos: 86,3 %. Continuó siendo conversacional y competitivo en tareas posteriores, lo que indica que las mejoras de seguridad no se produjeron a costa de otras capacidades. Este desempeño demuestra la eficacia de SAFER-INSTRUCT para avanzar hacia la creación de sistemas de IA más seguros y, al mismo tiempo, más capaces.

Es decir, los investigadores de la Universidad del Sur de California abordaron uno de los problemas espinosos de la anotación de datos de preferencias en RLHF al introducir SAFER-INSTRUCT. Este proceso creativo no solo automatizó la construcción de datos de preferencias a gran escala, aumentando, en caso necesario, la seguridad y la alineación sin sacrificar el rendimiento de los modelos de lenguaje, sino que la versatilidad de este marco resultó muy útil en el desarrollo de la IA durante muchos años, al garantizar que los modelos de lenguaje pudieran ser seguros y efectivos en muchas aplicaciones.

Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí

Investigadores de la USC presentan Safer-Instruct: una nueva metodología para construir automáticamente datos de preferencias a gran escala

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Databricks Open-Sources Omnigent: un metaarnés que compone, gobierna y comparte agentes de inteligencia artificial en Claude Code, Codex y Pi

Resolver el problema de probabilidad de cadenas 3Blue1Brown (sin IA)

Una implementación de codificación en MONAI para la segmentación del bazo en 3D de extremo a extremo utilizando UNet en volúmenes de TC médicos

You missed

La canción de advertencia de un pájaro reconfigura el cerebro de sus polluelos incluso antes de que nazcan

El puerto español de Valencia introduce el sistema fronterizo EES

El estrecho de Ormuz ha estado cerrado durante 100 días. ¿Por qué los precios del petróleo no están más altos?

“Tenemos que defender Catalunya de aquellos que le quieren mal, como Aliança Catalana”