Screenshot 2024 07 20 At 12.43.35 Am.png

Los modelos de lenguaje (LM) enfrentan desafíos significativos relacionados con la privacidad y los derechos de autor debido a que se entrenan con grandes cantidades de datos de texto. La inclusión involuntaria de contenido privado y protegido por derechos de autor en los conjuntos de datos de entrenamiento ha generado problemas legales y éticos, incluidas demandas por derechos de autor y requisitos de cumplimiento con regulaciones como el RGPD. Los propietarios de datos exigen cada vez más la eliminación de sus datos de los modelos entrenados, lo que resalta la necesidad de técnicas efectivas de desaprendizaje automático. Estos avances han impulsado la investigación de métodos que puedan transformar los modelos entrenados existentes para que se comporten como si nunca hubieran estado expuestos a ciertos datos, manteniendo al mismo tiempo el rendimiento y la eficiencia generales.

Los investigadores han intentado en varias ocasiones abordar los desafíos que plantea el desaprendizaje automático en los modelos lingüísticos. Se han desarrollado métodos de desaprendizaje exactos, cuyo objetivo es hacer que el modelo desaprendido sea idéntico a un modelo reentrenado sin los datos olvidados, para modelos simples como las máquinas de modelado de texto y los clasificadores bayesianos ingenuos. Sin embargo, estos enfoques son computacionalmente inviables para los modelos lingüísticos modernos de gran tamaño.

Los métodos de desaprendizaje aproximados han surgido como alternativas más prácticas. Entre ellos se incluyen técnicas de optimización de parámetros como el ascenso de gradiente, el desaprendizaje basado en la localización que se centra en unidades de modelos específicas y el desaprendizaje en contexto que modifica los resultados del modelo utilizando conocimiento externo. Los investigadores también han explorado la aplicación del desaprendizaje a tareas posteriores específicas y para eliminar comportamientos perjudiciales en los modelos lingüísticos.

Los métodos de evaluación para el desaprendizaje automático en modelos de lenguaje se han centrado principalmente en tareas específicas, como responder preguntas o completar oraciones. Se han utilizado métricas como puntajes de familiaridad y comparaciones con modelos reentrenados para evaluar la efectividad del desaprendizaje. Sin embargo, las evaluaciones existentes a menudo carecen de exhaustividad y no abordan adecuadamente consideraciones de implementación del mundo real, como la escalabilidad y las solicitudes de desaprendizaje secuencial.

Investigadores de la Universidad de Washington, la Universidad de Princeton, la Universidad del Sur de California, la Universidad de Chicago y Google Research presentan MUSE (Machine Unlearning Six-Way Evaluation), un marco integral diseñado para evaluar la eficacia de los algoritmos de desaprendizaje automático para modelos de lenguaje. Este enfoque sistemático evalúa seis propiedades críticas que abordan los requisitos de los propietarios de datos y de los implementadores de modelos para el desaprendizaje práctico. MUSE examina la capacidad de los algoritmos de desaprendizaje para eliminar la memorización palabra por palabra, la memorización de conocimientos y la fuga de privacidad, al tiempo que evalúa su capacidad para preservar la utilidad, escalar de manera efectiva y mantener el rendimiento en múltiples solicitudes de desaprendizaje. Al aplicar este marco para evaluar ocho algoritmos representativos de desaprendizaje automático en conjuntos de datos centrados en el desaprendizaje de libros y artículos de noticias de Harry Potter, MUSE proporciona una visión holística del estado actual y las limitaciones de las técnicas de desaprendizaje en escenarios del mundo real.

MUSE propone un conjunto integral de métricas de evaluación que abordan las expectativas tanto del propietario de los datos como del implementador del modelo en relación con el desaprendizaje automático en los modelos de lenguaje. El marco consta de seis criterios clave:

Expectativas del propietario de los datos:

1. Sin memorización palabra por palabra: se mide indicando al modelo el comienzo de una secuencia del conjunto olvidado y comparando la continuación del modelo con la continuación verdadera utilizando la puntuación ROUGE-L F1.

2. Sin memorización de conocimientos: se evalúa probando la capacidad del modelo para responder preguntas derivadas del conjunto de olvido, utilizando puntajes ROUGE para comparar las respuestas generadas por el modelo con las respuestas verdaderas.

3. Sin fugas de privacidad: se evaluó utilizando un método de ataque de inferencia de membresía (MIA) para detectar si el modelo retiene información que indica que el conjunto olvidado era parte de los datos de entrenamiento.

Expectativas del implementador del modelo:

4. Preservación de la utilidad: se mide evaluando el desempeño del modelo en el conjunto de retención utilizando la métrica de memorización de conocimiento.

5. Escalabilidad: se evalúa examinando el rendimiento del modelo en conjuntos olvidados de distintos tamaños.

6. Sostenibilidad: se analiza mediante el seguimiento del rendimiento del modelo a lo largo de solicitudes de desaprendizaje secuenciales.

MUSE evalúa estas métricas en dos conjuntos de datos representativos: NOTICIAS (artículos de noticias de la BBC) y LIBROS (serie de Harry Potter), proporcionando un banco de pruebas realista para evaluar algoritmos de desaprendizaje en escenarios prácticos.

La evaluación de ocho métodos de desaprendizaje del marco MUSE reveló desafíos significativos en el desaprendizaje automático para modelos de lenguaje. Si bien la mayoría de los métodos eliminaron de manera efectiva la memorización de palabras y conocimientos, tuvieron problemas con la fuga de privacidad, a menudo con un desaprendizaje insuficiente o excesivo. Todos los métodos degradaron significativamente la utilidad del modelo, y algunos modelos quedaron inutilizables. Surgieron problemas de escalabilidad a medida que aumentaban los tamaños de los conjuntos olvidados, y la sostenibilidad resultó problemática con las solicitudes de desaprendizaje secuencial, lo que llevó a una degradación progresiva del rendimiento. Estos hallazgos subrayan las importantes desventajas y limitaciones de las técnicas de desaprendizaje actuales, lo que destaca la necesidad apremiante de enfoques más efectivos y equilibrados para cumplir con las expectativas tanto del propietario de los datos como del implementador.

Esta investigación presenta MUSAun completo punto de referencia de evaluación del desaprendizaje automático, evalúa seis propiedades clave que son cruciales tanto para los propietarios de datos como para los implementadores de modelos. La evaluación revela que, si bien los métodos de desaprendizaje actuales previenen eficazmente la memorización de contenido, lo hacen a un costo sustancial para la utilidad del modelo en los datos retenidos. Además, estos métodos a menudo resultan en una importante fuga de privacidad y tienen problemas de escalabilidad y sostenibilidad al manejar la eliminación de contenido a gran escala o las sucesivas solicitudes de desaprendizaje. Estos hallazgos subrayan las limitaciones de los enfoques existentes y enfatizan la necesidad urgente de desarrollar técnicas de desaprendizaje automático más sólidas y equilibradas que puedan abordar mejor los complejos requisitos de las aplicaciones del mundo real.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.

Por automata