Uno de los desafíos más críticos de los LLM es cómo alinear estos modelos con los valores y preferencias humanos, especialmente en los textos generados. La mayoría de los resultados de texto generados por los modelos son inexactos, sesgados o potencialmente dañinos (por ejemplo, alucinaciones). Esta desalineación limita el uso potencial de los LLM en aplicaciones del mundo real en dominios como educación, salud y atención al cliente. Esto se ve agravado aún más por el hecho de que el sesgo se acumula en los LLM; Los procesos de capacitación iterativos seguramente empeorarán los problemas de alineación y, por lo tanto, no está claro si se confiará en el resultado producido. De hecho, este es un desafío muy serio para una ampliación más amplia y efectiva de las modalidades de LLM aplicadas a aplicaciones del mundo real.
Las soluciones actuales para la alineación implican métodos como RLHF y optimización de preferencia directa (DPO). RLHF entrena un modelo de recompensa que recompensa al LLM mediante aprendizaje reforzado basado en comentarios humanos, mientras que DPO optimiza el LLM directamente con pares de preferencias anotados y no requiere un modelo separado para las recompensas. Ambos enfoques dependen en gran medida de cantidades masivas de datos etiquetados por humanos, que son difíciles de escalar. Los modelos lingüísticos autogratificantes intentan reducir esta dependencia generando automáticamente datos de preferencias sin interferencia humana. En los SRLM, un modelo único suele actuar como modelo de política (que genera respuestas) y como modelo de recompensa que clasifica estas respuestas. Si bien esto ha tenido cierto éxito, su principal inconveniente es que dicho proceso resulta inherentemente en un sesgo en la iteración de recompensas. Cuanto más se haya entrenado de esta manera un modelo en sus datos de preferencias creados por él mismo, más sesgado estará el sistema de recompensa, y esto reducirá la confiabilidad de los datos de preferencias y degradará el rendimiento general en la alineación.
A la luz de estas deficiencias, investigadores de la Universidad de Carolina del Norte, la Universidad Tecnológica de Nanyang, la Universidad Nacional de Singapur y Microsoft introdujeron CREAM, que significa Modelos de Lenguaje Autogratificantes Regularizados de Consistencia. Este enfoque alivia los problemas de amplificación de sesgos en los modelos de autorrecompensa al incorporar un término de regularización sobre la consistencia de las recompensas entre generaciones durante el entrenamiento. La intuición es incorporar regularizadores de coherencia que evalúen las recompensas producidas por el modelo en iteraciones consecutivas y utilicen esta coherencia como guía para el proceso de entrenamiento. Al contrastar la clasificación de las respuestas de la iteración actual con las de la iteración anterior, CREAM encuentra y se centra en datos de preferencia confiables, lo que dificulta la tendencia de sobreaprendizaje del modelo a partir de etiquetas ruidosas o poco confiables. Este novedoso mecanismo de regularización reduce el sesgo y permite aún más que el modelo aprenda de manera más eficiente y efectiva a partir de sus datos de preferencias autogenerados. Esta es una gran mejora en comparación con los métodos actuales de recompensa personal.
CREAM opera dentro de un marco de ajuste de preferencias iterativo generalizado aplicable tanto a los métodos de autorecompensa como a los de RLHF. La regularización de la coherencia funciona comparando la clasificación de las respuestas producidas por el modelo en iteraciones consecutivas. Más precisamente, la coherencia entre las clasificaciones procedentes de la iteración actual y anterior se mide mediante el coeficiente Tau de Kendall. Esta puntuación de coherencia luego se incorpora a la función de pérdida como un término de regularización, lo que anima al modelo a depender más de datos de preferencia que tengan una alta coherencia entre iteraciones. Además, CREAM afina LLM mucho más pequeños, como LLaMA-7B, utilizando conjuntos de datos que están ampliamente disponibles, como ARC-Easy/Challenge, OpenBookQA, SIQA y GSM8K. De manera iterativa, el método fortalece esto mediante el uso de un mecanismo de ponderación para los datos de preferencia basado en su consistencia para lograr una alineación superior sin necesidad de conjuntos de datos a gran escala etiquetados por humanos.
CREAM supera la línea de base en muchas tareas posteriores en términos de alineación y eliminación de sesgos de modelos autorrecompensantes. Las mejoras notables en la precisión con el método incluyen un aumento del 86,78 % al 89,52 % en ARC-Easy y del 69,50 % al 72,06 % en SIQA. Estas mejoras consistentes con respecto a las iteraciones muestran el poder del mecanismo de regularización de consistencia en funcionamiento. Si bien los métodos estándar de autorecompensa tienden a tener una menor consistencia general de recompensa y alineación, CREAM supera a los modelos existentes, incluso en comparación con sistemas que utilizan modelos de recompensa externos de alta calidad. Esto también mantuvo la mejora del rendimiento sin utilizar ninguna ayuda externa, lo que muestra la solidez del modelo a la hora de generar datos de preferencias confiables. Además, este modelo sigue mejorando en términos de precisión y coherencia en las métricas de recompensa, lo que refleja verdaderamente la importancia de la regularización para mitigar el sesgo de recompensa y mejorar la eficiencia en la autorecompensa. Estos resultados establecen aún más a CREAM como una solución sólida al problema de alineación al proporcionar un método escalable y eficaz para optimizar modelos de lenguaje grandes.
En conclusión, CREAM ofrece una solución novedosa contra el desafío de recompensar el sesgo en modelos de lenguaje autogratificantes mediante la introducción de un mecanismo de regularización de coherencia. Al prestar más atención a datos de preferencia confiables y consistentes, CREAM logra una inmensa mejora en la alineación del rendimiento, especialmente para modelos bastante pequeños como LLaMA-7B. Si bien esto excluye la dependencia a largo plazo de datos anotados por humanos, este método representa una mejora importante hacia la escalabilidad y la eficiencia en el aprendizaje de preferencias. Por lo tanto, esto lo coloca como una contribución muy valiosa al desarrollo continuo de los LLM hacia aplicaciones del mundo real. Los resultados empíricos validan firmemente que CREAM de hecho supera a los métodos existentes y puede tener un impacto potencial en la mejora de la alineación y la confiabilidad en los LLM.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.
[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.