Google AI Research y Deepmind han publicado Vaultgemma 1Bel modelo de lenguaje grande más grande de peso abierto entrenado completamente con privacidad diferencial (DP). Este desarrollo es un paso importante hacia la construcción de modelos de IA que sean poderosos y que preservan la privacidad.
¿Por qué necesitamos privacidad diferencial en LLM?
Los modelos de idiomas grandes capacitados en vastos conjuntos de datos a escala de web son propensos a ataques de memorizacióndonde se puede extraer información sensible o de identificación personal del modelo. Los estudios han demostrado que los datos de entrenamiento literal pueden resurgir, especialmente en las versiones de peso abierto.
La privacidad diferencial ofrece un garantía matemática Eso evita que cualquier ejemplo de entrenamiento influya significativamente en el modelo. A diferencia de los enfoques que aplican DP solo durante el ajuste, Vaultgemma hace cumplir Prueba privada completaasegurando que la protección de la privacidad comience a nivel fundamental.
¿Cuál es la arquitectura de Vaultgemma?
Vaultgemma es arquitectónicamente similar a los modelos anteriores de Gemma, pero optimizado para la capacitación privada.
- Tamaño del modelo: Parámetros 1b, 26 capas.
- Tipo de transformador: Solo decodificador.
- Activaciones: Geglu con dimensión de avance de 13,824.
- Atención: Atención múltiple (MQA) con el tramo global de 1024 tokens.
- Normalización: Rmsnorm en la configuración previa a la norma.
- Tokenizador: SentencePiece con un vocabulario de 256k.
Un cambio notable es el Reducción de la longitud de secuencia a 1024 tokensque reduce los costos de cálculo y permite tamaños de lotes más grandes bajo restricciones DP.
¿Qué datos se usaron para el entrenamiento?
Vaultgemma fue entrenado en el mismo conjunto de datos de 13 billones de token Como Gemma 2, compuesta principalmente de texto en inglés de documentos web, código y artículos científicos.
El conjunto de datos se sometió a varias etapas de filtrado a:
- Eliminar contenido inseguro o sensible.
- Reducir la exposición a la información personal.
- Evitar la contaminación de datos de evaluación.
Esto garantiza la seguridad y la justicia en la evaluación comparativa.
¿Cómo se aplicó la privacidad diferencial?
Vaultgemma utilizado DP-SGD (descenso de gradiente estocástico diferencialmente privado) con recorte de gradiente y adición de ruido gaussiano. La implementación se basó en Privacidad de Jax y Optimizaciones introducidas para la escalabilidad:
- Recorte vectorizado por ejemplo para eficiencia paralela.
- Acumulación de gradiente para simular grandes lotes.
- Submuestreo de Poisson truncado Integrado en el cargador de datos para un muestreo eficiente sobre la marcha.
El modelo logró un Garantía DP formal de (ε ≤ 2.0, Δ ≤ 1.1e – 10) en el nivel de secuencia (1024 tokens).
¿Cómo funcionan las leyes de escala para la capacitación privada?
La capacitación de modelos grandes bajo restricciones DP requiere nuevas estrategias de escala. El equipo de Vaultgemma se desarrolló Leyes de escala específicas de DP Con tres innovaciones:
- Modelado de tasa de aprendizaje óptimo Uso de ajustes cuadráticos en las carreras de entrenamiento.
- Extrapolación paramétrica de los valores de pérdida Para reducir la dependencia de los puntos de control intermedios.
- Ajuste semi-paramétrico Para generalizar a través del tamaño del modelo, los pasos de entrenamiento y las relaciones de ruido por lotes.
Esta metodología permitió una predicción precisa de pérdida alcanzable y uso eficiente de recursos en el grupo de entrenamiento TPUV6E.
¿Cuáles fueron las configuraciones de entrenamiento?
Vaultgemma fue entrenado en 2048 tpuv6e chips Uso de la partición GSPMD y la compilación Megascale XLA.
- Tamaño por lotes: ~ 518k tokens.
- Iteraciones de entrenamiento: 100,000.
- Multiplicador de ruido: 0.614.
La pérdida lograda estuvo dentro del 1% de las predicciones de la ley de escala DP, validando el enfoque.
¿Cómo se desempeña Vaultgemma en comparación con los modelos no privados?
En puntos de referencia académicos, Vaultgemma sigue a sus homólogos no privados, pero muestra una fuerte utilidad:
- Arc-c: 26.45 vs. 38.31 (Gemma-3 1B).
- Piqa: 68.0 vs. 70.51 (GPT-2 1.5B).
- Triviaqa (5-shot): 11.24 vs. 39.75 (Gemma-3 1B).
Estos resultados sugieren que los modelos entrenados con DP son actualmente comparables a modelos no privados de hace unos cinco años. Es importante destacar que las pruebas de memorización confirmaron que Sin fuga de datos de entrenamiento fue detectable en Vaultgemma, a diferencia de los modelos GEMMA no privados.
Resumen
En resumen, Vaultgemma 1B demuestra que los modelos de lenguaje a gran escala pueden estar entrenados con rigurosas garantías de privacidad diferencial sin hacerlos poco prácticos de usar. Si bien una brecha de utilidad permanece en comparación con las contrapartes no privadas, la liberación del modelo y su metodología de capacitación proporciona a la comunidad una base sólida para avanzar en la IA privada. Este trabajo señala un cambio hacia los modelos de construcción que no solo son capaces, sino que también son inherentemente seguros, transparentes y de preservación de la privacidad.
Mira el Papel, Modelo en la cara abrazada y Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.