MDM-PRIME: un marco de modelos de difusión enmascarados generalizado (MDMS) que permite tokens parcialmente desenmascarados durante el muestreo

Introducción a MDMS y sus ineficiencias

Los modelos de difusión enmascarados (MDM) son herramientas poderosas para generar datos discretos, como texto o secuencias simbólicas, al desenmascarar gradualmente los tokens con el tiempo. En cada paso, las fichas están enmascaradas o desenmascaradas. Sin embargo, se ha observado que muchos pasos en el proceso inverso no cambian la secuencia, lo que lleva al procesamiento repetido de entradas idénticas y computación desperdiciada. Hasta el 37% de los pasos pueden no actualizar la secuencia en absoluto. Esta ineficiencia destaca una limitación clave en los MDM actuales, lo que provoca el desarrollo de métodos de muestreo más eficientes que minimicen los pasos inactivos y maximicen la utilización de cada paso de generación.

Evolución y mejoras en MDMS

El concepto de modelos de difusión discretos se originó a partir de trabajos tempranos en datos binarios, que luego se expande a aplicaciones prácticas como la generación de texto e imágenes a través de diversas estrategias de ruido. Los esfuerzos recientes han refinado MDM al simplificar los objetivos de capacitación y explorar representaciones latentes alternativas. Las mejoras incluyen la combinación de métodos autorregresivos con MDMS, guiar el muestreo con modelos basados ​​en energía y restablecer selectivamente tokens para aumentar la calidad de la salida. Otros estudios se han centrado en la destilación para reducir el número de pasos de muestreo de manera eficiente. Además, algunos métodos usan ruido continuo (por ejemplo, gaussiano) para modelar datos discretos; Sin embargo, los enfoques como la lucha por difusión de bits con probabilidades intratables debido a su dependencia de la cuantización.

Introducir Prime: Un esquema de enmascaramiento parcial

Investigadores del Vector Institute, Nvidia y la Universidad Nacional de Taiwán introdujeron un método llamado enmascaramiento parcial (Prime) para mejorar los MDM. A diferencia del enmascaramiento binario tradicional, Prime permite que los tokens asuman estados intermedios al enmascarar las subpartes de la forma codificada de un token. Esto permite que el modelo revele gradualmente la información del token, mejorando la calidad de la predicción y reduciendo el cálculo redundante. El modelo mejorado, MDM-Prime, logra resultados sólidos, con menor perplejidad en el texto (15.36 en OpenWebText) y las puntuaciones de FID competitivas en las tareas de imagen (3.26 en CIFAR-10, 6.98 en Imagenet-32), superan los MDM anteriores y los modelos autorregresivos sin utilizar técnicas autororizes.

Mejoras de arquitectura y capacitación

MDM-Prime es un modelo de difusión enmascarado modificado que introduce un enmascaramiento parcial en el nivel suboken. En lugar de tratar cada token como una sola unidad, la descomponen en una secuencia de sub-tokens usando una función invertible. Esto permite que el modelo genere estados intermedios más suaves durante la difusión, reduciendo así el número de pasos inactivos. El proceso inverso se entrena utilizando un límite variacional sobre estos sub-tokens. Para abordar las dependencias entre los sub-tokens y evitar salidas no válidas, el modelo aprende una distribución de probabilidad conjunta mientras se filtra secuencias inconsistentes. La arquitectura incluye un diseño eficiente de codificador de codificadores optimizado para el procesamiento sub-boenken.

Evaluación empírica en tareas de texto e imágenes

El estudio evalúa MDM-Prime en tareas de generación de texto y de imágenes. En la generación de texto utilizando el conjunto de datos OpenWebText, MDM-PRIME muestra mejoras significativas en la perplejidad y la relación paso inactivo, especialmente cuando la granularidad sub-alta ℓ ≥ 4 supera los métodos anteriores sin depender de estrategias autorregresivas y se generaliza bien en varios contactos de cero. Para la generación de imágenes en CIFAR-10 e Imagenet-32, MDM-Prime con ℓ = 2 logra una mejor calidad de muestra y puntajes FID más bajos en comparación con las líneas de base, mientras que es más eficiente. También funciona bien en las tareas de generación de imágenes condicionales, produciendo salidas coherentes prediciendo sub-tokens enmascarados a partir de imágenes parcialmente observadas.

Conclusión e implicaciones más amplias

En conclusión, la comprensión científica ha evolucionado al ver los átomos como las unidades más pequeñas de la materia para reconocer partículas más fundamentales, como lo demuestran los descubrimientos como el electrón y el modelo estándar. Del mismo modo, en el modelado generativo, el estudio introduce Prime, un método que desglosa los tokens de datos discretos en componentes submarinos más finos. Construido en MDMS, Prime mejora la eficiencia al permitir que existan tokens en estados intermedios, evitando el cálculo repetido en entradas sin cambios. Esto permite un modelado más detallado y expresivo. Su enfoque supera a los métodos anteriores en ambos texto (con una perplejidad de 15.36) y la generación de imágenes (logrando puntajes FID competitivos), ofreciendo una herramienta poderosa para la generación de datos precisa.


Mira el Papel, Página del proyecto y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.