¿Cuánto memorizan realmente los modelos de idiomas? El nuevo marco de Meta define la capacidad del modelo en el nivel de bits

Introducción: El desafío de la memorización en los modelos de idiomas

Los modelos de lenguaje moderno enfrentan un escrutinio creciente con respecto a su comportamiento de memorización. Con modelos como un transformador de parámetros de 8 mil millones entrenado en 15 billones de tokens, los investigadores cuestionan si estos modelos memorizan sus datos de entrenamiento de manera significativa. Las técnicas comunes, incluida la extracción de datos y la inferencia de membresía, se quedan cortas, ya que a menudo no distinguen entre memorización y generalización.

Limitaciones de los enfoques existentes

Los marcos anteriores, como los métodos basados ​​en la extracción o la privacidad diferencial, funcionan a nivel de conjunto de datos, no contabilizar por caso de memorización específica. El modelado de lenguaje a través de la compresión y las evaluaciones de la capacidad a través de la memorización de hechos (como en RNN y transformadores cuantificados) ofrecen información parcial pero carecen de escalabilidad y precisión, especialmente para las arquitecturas de transformadores profundos.

Un enfoque novedoso para medir la memorización

Investigadores de Fair en Meta, Google Deepmind, Cornell University y Nvidia han propuesto un método novedoso para estimar cuánto “sabe” un modelo sobre puntos de datos específicos para medir la capacidad de los modelos de idiomas modernos. Separan la memorización en dos componentes: memorización involuntaria, que representa la información que un modelo contiene sobre un conjunto de datos y generalización, que captura la información sobre el verdadero proceso de generación de datos. Calculan la memorización total para proporcionar estimaciones precisas de la capacidad del modelo al eliminar la generalización, lo que demuestra que los modelos de familia GPT tienen una capacidad aproximada de 3.6 bits por parámetro. Los investigadores también desarrollaron una serie de leyes de escala que relacionan la capacidad del modelo y el tamaño de los datos con la inferencia de membresía mediante la capacitación de cientos de modelos de lenguaje de transformadores.

Marco experimental y metodología de capacitación

Utilizando la arquitectura GPT-2, el equipo entrenó a cientos de modelos que varían de 100k a 20 m parámetros, profundidades variables (1-8 capas) y tamaños ocultos (32-512). Capacitación involucrada:

  • 10^6 pasos
  • Tamaño del lote: 2048
  • Precisión: bfloat16
  • Hardware: GPU A100 individual

Estos modelos fueron entrenados tanto en secuencias sintéticas como en secuencias de texto de 64 token deduplicadas del conjunto de datos FineWeb. Los experimentos aseguraron una interferencia mínima de la generalización a través de una cuidadosa construcción del conjunto de datos.

Informes de capacidad de modelo y hallazgos clave

  • Bits por parámetro: En todas las configuraciones, los modelos almacenados consistentemente entre 3.5 y 3.6 bits/parámetro.
  • Descenso: A medida que el tamaño del conjunto de datos de entrenamiento se acerca a la capacidad del modelo, la pérdida de prueba inicialmente disminuye (sobreajuste), luego mejora nuevamente a medida que los modelos comienzan a generalizarse.
  • Impacto de precisión: La capacitación en Float32 aumenta ligeramente la capacidad de almacenamiento (a ~ 3.83 bpp) en comparación con BFLOAT16 (~ 3.51 BPP).

Memorización y generalización de desenredación

Cambiando de conjuntos de datos sintéticos a de texto real, el equipo observó:

  • La memorización no deseada de nivel de muestra aumenta con el recuento de parámetros.
  • La memorización disminuye a medida que aumenta el tamaño del conjunto de entrenamiento.
  • La estimación precisa de la memorización del modelo requiere deduplicación y referencia a un modelo Oracle para las tasas de compresión basales.

Leyes de escala de inferencia de membresía

Los investigadores modelaron la tasa de éxito (puntaje F1) de la inferencia de membresía basada en pérdidas en función de la relación entre la capacidad del modelo y el tamaño del conjunto de datos. Observaciones clave:

  • La inferencia de membresía se vuelve poco confiable a medida que crecen los conjuntos de datos.
  • Las leyes de escala predictiva siguen siendo precisas dentro del 1-2% para modelos de hasta 1.5b parámetros.

Conclusión: una mejor comprensión del comportamiento del modelo

Este trabajo establece un marco de principios para medir la memorización en los modelos de idiomas. Al introducir métricas cuantificables y experimentos escalables, profundiza nuestra comprensión de cómo los modelos de transformadores codifican los datos de entrenamiento y dibuja un límite claro entre la memorización y la generalización. Las ideas resultantes pueden guiar los desarrollos futuros en la evaluación del modelo, la privacidad e interpretabilidad.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 99k+ ml de subreddit y suscribirse a Nuestro boletín.

▶ ¿Desea promover su producto/seminario web/servicio a 1 millón+ ingenieros de IA/desarrolladores/científicos de datos/arquitectos/CTO/CIO? Vamos a socio ..


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.