1ic8yp4mvekljznkret6hew.png

Una introducción suave al último modelo de transfusión multimodal

Recientemente, Meta y Waymo publicaron su último documento:Transfusión: Predecir el próximo token y difundir imágenes con un modelo multimodal, que integra el popular modelo de transformador con el modelo de difusión para fines de entrenamiento y predicción multimodal.

Me gusta Meta Trabajo previoEl modelo de transfusión se basa en la Arquitectura de llama con fusión temprana, que toma tanto la secuencia de tokens de texto como la secuencia de tokens de imagen y utiliza un único modelo de transformador para generar la predicción. Pero a diferencia del arte anterior, el modelo de Transfusión aborda los tokens de imagen de manera diferente:

  • La secuencia de tokens de imagen se genera mediante una parte del codificador automático variacional entrenado previamente.
  • La atención del transformador para la secuencia de imágenes es bidireccional en lugar de causal.
Arquitectura del modelo de transfusión con tareas de preentrenamiento. El preentrenamiento de texto es la siguiente tarea de predicción de palabras. El preentrenamiento de imagen es una tarea de difusión de eliminación de ruido. Fuente de la imagen: https://www.arxiv.org/pdf/2408.11039

Analicemos lo siguiente en detalle. Primero repasaremos los conceptos básicos, como los modelos autorregresivos y de difusión, y luego profundizaremos en la arquitectura de Transfusion.

Modelos autorregresivos

En la actualidad, los modelos de lenguaje grandes (LLM) se basan principalmente en arquitecturas de transformadores, que se propusieron en el La atención es todo lo que necesitas artículo publicado en 2017. La arquitectura del transformador contiene dos partes: el codificador y el decodificador.

Arquitectura del transformador. A la izquierda: codificador; a la derecha: decodificador. Fuente de la imagen: https://arxiv.org/pdf/1706.03762

Los modelos de lenguaje enmascarado como BERT utilizan la parte del codificador entrenada previamente con tareas de predicción de tokens enmascarados bidireccionales aleatorios (y predicción de la siguiente oración). Para los modelos autorregresivos como los últimos LLM, la parte del decodificador generalmente se entrena en la siguiente tarea de predicción de tokens, donde se minimiza la pérdida de LM:

Fuente de la ecuación: https://www.arxiv.org/pdf/2408.11039

En la ecuación anterior, \theta es el conjunto de parámetros del modelo, e y_i es el token en el índice i en una secuencia de longitud n. y

Modelos de difusión

¿Qué es el modelo de difusión? Es una serie de modelos de aprendizaje profundo que se utilizan comúnmente en la visión artificial (especialmente para el análisis de imágenes médicas) para la generación/eliminación de ruido de imágenes y otros fines. Uno de los modelos de difusión más conocidos es el DDPM, que proviene del Modelos probabilísticos de difusión para eliminar el ruido artículo publicado en 2020. El modelo es una cadena de Markov parametrizada que contiene una transición hacia atrás y hacia adelante, como se muestra a continuación.

El modelo de difusión es una cadena de Markov bidireccional. Fuente de la imagen: https://arxiv.org/pdf/2006.11239

¿Qué es una cadena de Markov? Es un proceso estadístico en el que el paso actual solo depende del paso anterior, y lo inverso es al revés. Al asumir un proceso de Markov, el modelo puede comenzar con una imagen limpia agregando iterativamente ruido gaussiano en el proceso directo (derecha -> izquierda en la figura anterior) y «aprender» iterativamente el ruido utilizando una arquitectura basada en Unet en el proceso inverso (izquierda -> derecha en la figura anterior). Es por eso que a veces podemos ver el modelo de difusión como un modelo generativo (cuando se usa de izquierda a derecha) y a veces como un modelo de eliminación de ruido (cuando se usa de derecha a izquierda). La pérdida de DDPM se muestra a continuación, donde theta es el conjunto de parámetros del modelo, \epsilon es el ruido conocido y \epsilon_theta es el ruido estimado por un modelo de aprendizaje profundo (generalmente un UNet):

Fuente de la ecuación: https://www.arxiv.org/pdf/2408.11039

Modelo de difusión en el espacio latente

La idea de difusión se extendió aún más al espacio latente en el Ponencia CVPR’22donde las imágenes se “comprimen” primero en el espacio latente mediante el uso de la parte codificadora de un sistema preentrenado. Codificador automático variacional (VAE). Luego, los procesos de difusión e inversión se realizan en el espacio latente y se vuelven a mapear al espacio de píxeles utilizando la parte decodificadora del VAE. Esto podría mejorar en gran medida la velocidad y la eficiencia del aprendizaje, ya que la mayoría de los cálculos se realizan en un espacio de menor dimensión.

Arquitectura del modelo de difusión latente. \Epsilon y D son codificadores y decodificadores por separado. Fuente de la imagen: https://arxiv.org/pdf/2112.10752

Transfusión de imágenes basada en VAE

La parte central del modelo de Transfusión es la fusión entre la difusión y el transformador para las imágenes de entrada. Primero, una imagen se divide en una secuencia de 8*8 parches; cada parche se pasa a un codificador VAE entrenado previamente para “comprimirlo” en una representación de vector latente de 8 elementos. Luego, se agrega ruido a la representación latente y se procesa mediante un codificador de capa lineal/U-Net para generar la x_t “ruidosa”. En tercer lugar, el modelo de transformador procesa la secuencia de representaciones latentes ruidosas. Por último, las salidas se procesan de manera inversa mediante otro decodificador lineal/U-Net antes de usar un decodificador VAE para generar la imagen x_0 “real”.

Parte del módulo de difusión para la entrada de imagen. El ruido se agrega a la incrustación codificada por VAE. Fuente de la imagen: https://www.arxiv.org/pdf/2408.11039

En la implementación real, el token de inicio de la imagen (BOI) y el token de fin de la imagen (EOI) se rellenan a ambos lados de la secuencia de representación de la imagen antes de concatenar los tokens de texto. La autoatención para el entrenamiento de imágenes es atención bidireccional, mientras que la autoatención para tokens de texto es causal. En la etapa de entrenamiento, la pérdida para la secuencia de imágenes es pérdida DDPM, mientras que el resto de los tokens de texto utilizan la pérdida LM.

Entonces, ¿por qué molestarse? ¿Por qué necesitamos un procedimiento tan complicado para procesar tokens de parches de imagen? El artículo explica que el espacio de tokens para texto e imágenes es diferente. Si bien los tokens de texto son discretos, los tokens/parches de imagen son naturalmente continuos.En la técnica anterior, los tokens de imagen deben “discretizarse” antes de fusionarse en el modelo de transformador, mientras que la integración directa del modelo de difusión podría resolver este problema.

Comparar con el estado del arte

El modelo multimodal principal con el que se compara el artículo es el Modelo camaleónque Meta propuso a principios de este año. Aquí, comparamos la diferencia entre la arquitectura y el tamaño del conjunto de entrenamiento entre Chameleon-7B y Transfusion-7B.

Diferencias de arquitectura y entrenamiento entre Chameleon 7B y Transfusion 7B. Imagen del autor.

El artículo enumera la comparación del rendimiento con la precisión del conjunto de preentrenamiento Llama2, la distancia de inicio de Frechet (FID) de disparo cero de COCO y el punto de referencia GenEval. Podemos ver que Transfusion tiene un rendimiento mucho mejor que Chameleon en los puntos de referencia relacionados con la imagen (COCO y Gen) mientras pierde muy poco margen en comparación con Chameleon, con la misma cantidad de parámetros.

Fuente de la imagen: https://www.arxiv.org/pdf/2408.11039

Comentarios adicionales.

Aunque la idea del artículo es muy interesante, la parte de “Difusión” de la Transfusión no es una Difusión real, ya que solo hay dos marcas de tiempo en el proceso de Markov. Además, el VAE preentrenado hace que el modelo ya no sea estrictamente de extremo a extremo. Además, el diseño VAE + Lineal/UNet + Codificador Transformador + Lineal/UNet + VAE parece tan complicado, que hace que la audiencia no pueda evitar preguntarse: ¿hay una forma más elegante de implementar esta idea? Además, anteriormente escribí sobre el Última publicación de Apple sobre los beneficios de generalización del uso de modelos autorregresivos en imágenes, por lo que podría ser interesante darle una segunda reflexión al enfoque “MIM + autorregresivo”.
Si te parece interesante esta publicación y quieres debatirla, te invitamos a dejar un comentario. Estaré encantado de continuar la discusión allí 🙂

Referencias

  • Zhou et al., Transfusión: predecir el próximo token y difundir imágenes con un modelo multimodal. arXiv 2024.
  • Equipo C. Chameleon: modelos de base de fusión temprana de modalidad mixta. Preimpresión de arXiv 2024.
  • Touvron et al., Llama: modelos de lenguaje de base abiertos y eficientes. arXiv 2023.
  • Rombach et al., Síntesis de imágenes de alta resolución con modelos de difusión latente. CVPR 2022.
  • Ho et al., Modelos probabilísticos de difusión para la eliminación de ruido. NeurIPS 2020.
  • Vaswani, la atención es todo lo que necesitas. NeurIPS 2017.
  • Kingma, Bayes variacional con codificación automática. Preimpresión arXiv 2013.


¿Transformador? ¿Difusión? ¡Transfusión! fue publicado originalmente en Hacia la ciencia de datos en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.