Los modelos de difusión generan imágenes refinando progresivamente el ruido en representaciones estructuradas. Sin embargo, el costo computacional asociado con estos modelos sigue siendo un desafío clave, particularmente cuando se opera directamente en datos de píxeles de alta dimensión. Los investigadores han estado investigando formas de optimizar las representaciones del espacio latente para mejorar la eficiencia sin comprometer la calidad de la imagen.
Un problema crítico en los modelos de difusión es la calidad y la estructura del espacio latente. Los enfoques tradicionales, como los autoencoders variacionales (VAE), se han utilizado como tokenizadores para regular el espacio latente, asegurando que las representaciones aprendidas sean suaves y estructuradas. Sin embargo, los VAE a menudo luchan por lograr una fidelidad alta a nivel de píxeles debido a las limitaciones impuestas por la regularización. Los autoencoders (AES), que no emplean restricciones variacionales, pueden reconstruir imágenes con mayor fidelidad, pero a menudo conducen a un espacio latente enredado que dificulta el entrenamiento y el rendimiento de los modelos de difusión. Abordar estos desafíos requiere un tokenizador que proporcione un espacio latente estructurado mientras mantiene una alta precisión de reconstrucción.
Los esfuerzos de investigación anteriores han intentado abordar estos problemas utilizando diversas técnicas. Los VAE imponen una restricción Kullback-Leibbler (KL) para fomentar distribuciones latentes suaves, mientras que los VAE alineados con representación refinan las estructuras latentes para una mejor calidad de generación. Algunos métodos utilizan modelos de mezcla gaussianos (GMM) para estructurar el espacio latente o alinear las representaciones latentes con modelos previamente capacitados para mejorar el rendimiento. A pesar de estos avances, los enfoques existentes aún encuentran limitaciones de sobrecarga computacional y escalabilidad, lo que requiere estrategias de tokenización más efectivas.
Un equipo de investigación de la Universidad Carnegie Mellon, la Universidad de Hong Kong, la Universidad de Pekín y AMD introdujo un tokenizador novedoso, Tokenizer de autoencoder enmascarado (Maetok)para abordar estos desafíos. Maetok emplea el modelado enmascarado dentro de un marco de Autoencoder para desarrollar un espacio latente más estructurado al tiempo que garantiza una alta fidelidad de reconstrucción. Los investigadores diseñaron a Maetok para aprovechar los principios de los autoencoders enmascarados (MAE), optimizando el equilibrio entre la calidad de la generación y la eficiencia computacional.
La metodología detrás de Maetok implica capacitar a un autoencoder con una arquitectura basada en el transformador de visión (VIT), incorporando tanto un codificador como un decodificador. El codificador recibe una imagen de entrada dividida en parches y los procesa junto con un conjunto de tokens latentes aprendibles. Durante el entrenamiento, una parte de los tokens de entrada se enmascara al azar, lo que obliga al modelo a inferir los datos faltantes de las regiones visibles restantes. Este mecanismo mejora la capacidad del modelo para aprender representaciones discriminativas y semánticamente ricas. Además, los decodificadores poco profundos auxiliares predicen las características enmascaradas, refinando aún más la calidad del espacio latente. A diferencia de los VAE tradicionales, Maetok elimina la necesidad de limitaciones variacionales, simplificando la capacitación al tiempo que mejora la eficiencia.
Se realizaron extensas evaluaciones experimentales para evaluar la efectividad de Maetok. El modelo demostró un rendimiento de vanguardia en los puntos de referencia de la generación de Imagenet, al tiempo que reduce significativamente los requisitos computacionales. Específicamente, Maetok solo utilizó 128 fichas latentes Mientras logra un Distancia generativa de inicio de frechet (GFID) de 1.69 para 512 × 512 Imágenes de resolución. El entrenamiento fue 76 veces más rápidoy el rendimiento de inferencia fue 31 veces más alto que los métodos convencionales. Los resultados mostraron que un espacio latente con menos modos de mezcla gaussianos produjo una menor pérdida de difusión, lo que llevó a un mejor rendimiento generativo. El modelo fue entrenado en SIT-XL con parámetros de 675m y superó a los modelos anteriores de última generación, incluidos los entrenados con VAE.
Esta investigación destaca la importancia de estructurar el espacio latente de manera efectiva en los modelos de difusión. Al integrar el modelado enmascarado, los investigadores lograron un equilibrio óptimo entre la fidelidad de la reconstrucción y la calidad de la representación, lo que demuestra que la estructura del espacio latente es un factor crucial en el rendimiento generativo. Los hallazgos proporcionan una base sólida para nuevos avances en la síntesis de imágenes basada en difusión, ofreciendo un enfoque que mejora la escalabilidad y la eficiencia sin sacrificar la calidad de la salida.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.
🚨 Únase a nuestra comunidad de aprendizaje automático en Twitter/incógnita
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.