Google DeepMind presenta Unified Latents (UL): un marco de aprendizaje automático que regulariza conjuntamente las latentes mediante un previo de difusión y un decodificador

La trayectoria actual de la IA generativa depende en gran medida de los modelos de difusión latente (LDM) para gestionar el coste computacional de la síntesis de alta resolución. Al comprimir datos en un espacio latente de dimensiones inferiores, los modelos pueden escalarse de manera efectiva. Sin embargo, persiste una compensación fundamental: una menor densidad de información hace que las latentes sean más fáciles de aprender pero sacrifica la calidad de la reconstrucción, mientras que una mayor densidad permite una reconstrucción casi perfecta pero exige una mayor capacidad de modelado.

Los investigadores de Google DeepMind han presentado Unified Latents (UL), un marco diseñado para afrontar este equilibrio de forma sistemática. El marco regulariza conjuntamente representaciones latentes con una difusión previa y las decodifica mediante un modelo de difusión.

https://arxiv.org/pdf/2602.17270

La arquitectura: tres pilares de latentes unificadas

El marco Unified Latents (UL) se basa en tres componentes técnicos específicos:

Codificación de ruido gaussiana fija: a diferencia de los codificadores automáticos variacionales (VAE) estándar que aprenden una distribución de codificador, UL utiliza un codificador determinista E𝝷 que predice un único zclean latente. A continuación, este latente se aplica ruido directo hasta una relación log-señal-ruido final (log-SNR) de λ(0)=5. Alineación previa: el modelo de difusión anterior está alineado con este nivel mínimo de ruido. Esta alineación permite que el término Kullback-Leibler (KL) en el límite inferior de evidencia (ELBO) se reduzca a un simple error cuadrático medio ponderado (MSE) sobre los niveles de ruido. Decodificador reponderado ELBO: el decodificador utiliza una pérdida ponderada sigmoidea, que proporciona un límite interpretable en la tasa de bits latente al tiempo que permite al modelo priorizar diferentes niveles de ruido.

El proceso de formación en dos etapas

El marco de UL se implementa en dos etapas distintas para optimizar tanto el aprendizaje latente como la calidad de la generación.

Etapa 1: Aprendizaje latente conjunto

En la primera etapa, el codificador, el previo de difusión (P) y el decodificador de difusión (D) se entrenan conjuntamente. El objetivo es aprender latentes que están simultáneamente codificadas, regularizadas y modeladas. El ruido de salida del codificador está vinculado directamente al nivel mínimo de ruido del anterior, lo que proporciona un límite superior estricto en la tasa de bits latente.

Etapa 2: Escalado del modelo base

El equipo de investigación descubrió que un entrenamiento previo únicamente en una pérdida de ELBO en la Etapa 1 no produce muestras óptimas porque pondera el contenido de baja y alta frecuencia por igual. En consecuencia, en la Etapa 2, el codificador y el decodificador están congelados. Luego se entrena un nuevo “modelo base” en las latentes utilizando una ponderación sigmoidea, lo que mejora significativamente el rendimiento. Esta etapa permite tamaños de modelo y lotes más grandes.

Rendimiento técnico y puntos de referencia SOTA

Unified Latents demuestra una alta eficiencia en la relación entre la computación de entrenamiento (FLOP) y la calidad de generación.

MetricDatasetResultSignificanceFIDImageNet-5121.4Supera los modelos entrenados en latentes de difusión estable para un presupuesto informático determinado.FVDKinetics-6001.3Establece un nuevo estado del arte (SOTA) para la generación de video.PSNRImageNet-512Hasta 30.1Mantiene una alta fidelidad de reconstrucción incluso con niveles de compresión más altos.

En ImageNet-512, UL superó los enfoques anteriores, incluidas las variantes DiT y EDM2, en términos de costo de capacitación versus generación de FID. En tareas de video usando Kinetics-600, un modelo UL pequeño logró un FVD de 1.7, mientras que la variante mediana alcanzó el FVD de SOTA 1.3.

https://arxiv.org/pdf/2602.17270

Conclusiones clave

Marco de difusión integrado: UL es un marco que optimiza conjuntamente un codificador, un previo de difusión y un decodificador de difusión, asegurando que las representaciones latentes se codifiquen, regularicen y modelen simultáneamente para una generación de alta eficiencia. Límite de información de ruido fijo: al utilizar un codificador determinista que agrega una cantidad fija de ruido gaussiano (específicamente a un log-SNR de λ(0)=5) y vincularlo al nivel de ruido mínimo anterior, el modelo proporciona un límite superior estricto e interpretable en la tasa de bits latente. Estrategia de capacitación en dos etapas: el proceso implica una etapa inicial de capacitación conjunta para el codificador automático y la anterior, seguida de una segunda etapa en la que el codificador y el decodificador se congelan y se entrena un “modelo base” más grande en las latentes para maximizar la calidad de la muestra. Rendimiento de última generación: el marco estableció una nueva distancia de video Fréchet (FVD) de última generación (SOTA) de 1,3 en Kinetics-600 y logró una distancia de inicio Fréchet (FID) competitiva de 1,4 en ImageNet-512, al tiempo que requirió menos FLOP de entrenamiento que las líneas base de difusión latente estándar.

Consulte el documento. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.