Screenshot 2024 05 19 At 12.26.20 Am.png

Los investigadores de Google AI describen su novedoso enfoque para abordar el desafío de generar conjuntos de datos sintéticos de alta calidad que preserven la privacidad del usuario, que son esenciales para entrenar modelos predictivos sin comprometer información confidencial. A medida que los modelos de aprendizaje automático dependen cada vez más de grandes conjuntos de datos, garantizar la privacidad de las personas cuyos datos contribuyen a estos modelos se vuelve crucial. Los datos sintéticos diferencialmente privados se sintetizan mediante la creación de nuevos conjuntos de datos que reflejan las características clave de los datos originales pero que son completamente artificiales, lo que protege la privacidad del usuario y permite un entrenamiento sólido del modelo.

Los métodos actuales para la generación de datos que preservan la privacidad implican entrenar modelos directamente con algoritmos de aprendizaje automático diferencialmente privados (DP-ML), que brindan sólidas garantías de privacidad. Sin embargo, cuando se trabaja con conjuntos de datos de alta dimensión utilizados para una variedad de tareas, este método puede ser exigente desde el punto de vista computacional y solo en ocasiones puede producir resultados de alta calidad. Los modelos anteriores, como el Aprovechamiento de modelos en lenguajes grandes, han aprovechado los modelos en lenguajes grandes (LLM) combinados con un descenso de gradiente estocástico diferencialmente privado (DP-SGD) para generar datos sintéticos privados. Este método implica ajustar un LLM capacitado en datos públicos utilizando DP-SGD en un conjunto de datos confidenciales, asegurando que los datos sintéticos generados no revelen ninguna información específica sobre las personas en el conjunto de datos confidenciales.

Los investigadores de Google propusieron un enfoque mejorado para generar datos sintéticos diferencialmente privados aprovechando técnicas de ajuste eficiente de parámetros, como LoRa (adaptación de bajo rango) y ajuste rápido. Estas técnicas tienen como objetivo modificar una menor cantidad de parámetros durante el proceso de entrenamiento privado, lo que reduce la sobrecarga computacional y potencialmente mejora la calidad de los datos sintéticos.

El primer paso del enfoque es capacitar a LLM en un gran corpus de datos públicos. Luego, el LLM se ajusta utilizando DP-SGD en el conjunto de datos confidenciales, y el proceso de ajuste se restringe a un subconjunto de los parámetros del modelo. El ajuste fino de LoRa implica reemplazar cada W en el modelo con W + LR, donde L y R son matrices de rango bajo, y solo entrena L y R. El ajuste fino rápido, por otro lado, implica insertar un «tensor rápido» al inicio de la red y solo entrena sus pesos, modificando efectivamente solo el mensaje de entrada utilizado por el LLM.

Los resultados empíricos mostraron que el ajuste fino de LoRa, que modifica aproximadamente 20 millones de parámetros, supera tanto al ajuste fino de parámetros completos como al ajuste basado en indicaciones, que modifica solo alrededor de 41 mil parámetros. Esto sugiere que existe un número óptimo de parámetros que equilibran el equilibrio entre la eficiencia computacional y la calidad de los datos. Los clasificadores entrenados con datos sintéticos generados por LLM ajustados por LoRa superaron a los entrenados con datos sintéticos de otros métodos de ajuste fino y, en algunos casos, los clasificadores entrenados directamente con los datos confidenciales originales utilizando DP-SGD. En un experimento para evaluar el enfoque propuesto, se entrenó un LLM solo decodificador (Lamda-8B) con datos públicos y luego se ajustó de forma privada en tres conjuntos de datos disponibles públicamente, a saber, IMDB, Yelp y AG News, y se trató como sensible. Los datos sintéticos generados se utilizaron para capacitar a clasificadores en tareas como análisis de sentimientos y clasificación de temas. El desempeño de los clasificadores en subconjuntos reservados de los datos originales demostró la eficacia del método propuesto.

En conclusión, el enfoque de Google para generar datos sintéticos diferencialmente privados utilizando técnicas de ajuste eficiente de parámetros ha superado a los métodos existentes. Al ajustar un subconjunto más pequeño de parámetros, el método reduce los requisitos computacionales y mejora la calidad de los datos sintéticos. Este enfoque no solo preserva la privacidad sino que también mantiene una alta utilidad para entrenar modelos predictivos, lo que lo convierte en una herramienta valiosa para las organizaciones que buscan aprovechar datos confidenciales sin comprometer la privacidad del usuario. Los resultados empíricos demuestran la eficacia del método propuesto, lo que sugiere su potencial para aplicaciones más amplias en el aprendizaje automático que preserva la privacidad.


Revisar la Papel y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.