Manejo Información de identificación personal (PII) En modelos de idiomas grandes (LLM) es especialmente difícil para la privacidad. Dichos modelos están capacitados en enormes conjuntos de datos con datos confidenciales, lo que resulta en riesgos de memorización y divulgación accidental. Gerente PII es complejo porque los conjuntos de datos se actualizan constantemente con nueva información, y algunos usuarios pueden solicitar la eliminación de datos. En campos como la atención médica, la eliminación de PII no siempre es factible. Los modelos de ajuste fino para tareas específicas aumentan aún más el riesgo de retener datos confidenciales. Incluso después de la capacitación, puede haber información residual, que necesita técnicas especializadas para la eliminación, y la protección de la privacidad es un desafío interminable.
Actualmente, los métodos para reducir la memorización de PII dependen Filtrado de datos confidenciales y desaprendizaje de la máquinadonde los modelos se vuelven a entrenar sin cierta información. Estos enfoques enfrentan problemas importantes, especialmente en conjuntos de datos cambiantes. El ajuste fino aumenta el riesgo de memorización, y el desaprendizaje puede exponer los datos involuntariamente en lugar de eliminarlos por completo. Los ataques de inferencia de membresía, que intentan determinar si se usaron datos específicos en la capacitación, siguen siendo una preocupación seria. Incluso cuando los modelos olvidan ciertos datos a lo largo del tiempo, conservan patrones ocultos que se pueden extraer. Las técnicas existentes carecen de una comprensión completa de cómo ocurre la memorización durante la capacitación, lo que hace que los riesgos de privacidad sean más difíciles de controlar.
Para abordar estos desafíos, investigadores de Northeastern University, Google Deepmind, y La Universidad de Washington propuesto “asistido memorización“, Analizando cómo los datos personales se conservan en LLM a lo largo del tiempo. A diferencia de los métodos existentes centrados únicamente en si se produce memorización, este enfoque examina cuándo y por qué sucede. Los investigadores clasificaron diferentes tipos de memorización de PII-inmediato, retenido, olvidado, y asistido– Comprender mejor estos riesgos. Los resultados indicaron que PII no se memoriza necesariamente al instante, sino que puede ser extraíble más adelante, especialmente cuando se superpone los nuevos datos de entrenamiento con información anterior. Esto socava las estrategias actuales de eliminación de datos que ignoran las implicaciones de memorización a largo plazo.
El marco rastreó exhaustivamente la memorización de PII a lo largo de la capacitación continua a través de experimentos en diversos modelos y conjuntos de datos. Analizó el impacto de los diferentes enfoques de entrenamiento en los riesgos de memorización y extracción, lo que demuestra que agregar nuevos datos podría aumentar la probabilidad de extracción de PII. Los esfuerzos para reducir la memorización de un individuo a veces inadvertidamente aumentan los riesgos para otros. Investigadores evaluados sintonia FINA, reestructuracióny técnicas de desaprendizaje usando GPT-2-XL, LLAMA 3 8B, y Gemma 2B modelos entrenados en modificado Wikitext-2 y Pila de leyes conjuntos de datos que contienen correos electrónicos únicos. Las pruebas de extracción evaluaron la memorización, revelando que la memorización asistida ocurrió en 35.7% de casos, lo que indica que fue influenciado por la dinámica de entrenamiento en lugar de inevitable.
Otros experimentos examinaron cómo el aumento de PII en los conjuntos de datos de ajuste fino afectó los riesgos de extracción por capacitación diez Modelos en conjuntos de datos con diferentes porcentajes de PII. Los resultados confirmaron que más alto PII El contenido condujo a mayores riesgos de extracción, con un aumento superlineal en la extracción bajo muestreo Top-K. Además, el desaprendizaje iterativo introdujo el “Efecto de cebolla“Donde la eliminación de PII extraída provocó que PII previamente unMemorizado se fuera extraíble. Esto confirmó que el efecto resulta de la exposición sistemática de la información memorizada límite en lugar de la variación aleatoria. Los hallazgos resaltan los desafíos de agregar y eliminar PII, mostrando las complejidades de la protección de la privacidad en los modelos de idiomas.
En conclusión, el método propuesto destacó los riesgos de privacidad en modelos de lenguaje grandes, que muestra cómo el ajuste, el reentrenamiento y el desaprendizaje pueden exponer involuntariamente la información de identificación personal (PII). Se identificó la memorización asistida, donde PII que no se extrajo inicialmente podría ser accesible. El aumento de la PII en los datos de capacitación aumentó los riesgos de extracción, y la eliminación de PII específica a veces reveló otra información. Estos hallazgos sientan una base para mejorar las técnicas de preservación de la privacidad y los métodos de desaprendizaje, proporcionando una protección más fuerte para los datos en modelos de aprendizaje automático.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.