En los últimos años, la generación de imágenes ha logrado avances significativos debido a los avances tanto en los transformadores como en los modelos de difusión. De manera similar a las tendencias en los modelos de lenguaje generativo, muchos modelos modernos de generación de imágenes ahora utilizan tokenizadores y destokenizadores de imágenes estándar. A pesar de mostrar un gran éxito en la generación de imágenes, los tokenizadores de imágenes encuentran limitaciones fundamentales debido a la forma en que están diseñados. Estos tokenizadores se basan en el supuesto de que el espacio latente debe conservar una estructura 2D para mantener un mapeo directo de las ubicaciones entre los tokens latentes y los parches de imágenes.
Este artículo analiza tres métodos existentes en el ámbito del procesamiento y la comprensión de imágenes. En primer lugar, la tokenización de imágenes ha sido un enfoque fundamental desde los primeros días del aprendizaje profundo, utilizando codificadores automáticos para comprimir imágenes de alta dimensión en representaciones latentes de baja dimensión y luego decodificarlas nuevamente. El segundo enfoque es la tokenización para la comprensión de imágenes, que se utiliza para tareas de comprensión de imágenes como clasificación de imágenes, detección de objetos, segmentación y modelos de lenguaje grande multimodal (MLLM). Por último está la generación de imágenes, en la que los métodos han evolucionado desde el muestreo de codificadores automáticos variacionales (VAE) hasta la utilización de redes generativas adversarias (GAN), modelos de difusión y modelos autorregresivos.
Investigadores de la Universidad Técnica de Múnich y ByteDance han propuesto un enfoque innovador que tokeniza imágenes en secuencias latentes 1D, denominado Tokenizador unidimensional basado en transformadores (TiTok). TiTok consta de un codificador Vision Transformer (ViT), un decodificador ViT y un cuantificador vectorial, similar a los diseños típicos de modelos Vector-Quantized (VQ). Durante la fase de tokenización, la imagen se divide en parches, que luego se aplanan y se combinan en una secuencia 1D de tokens latentes. Después de que el codificador ViT procesa las características de la imagen, los tokens latentes resultantes forman la representación latente de la imagen.
Junto con la tarea de generación de imágenes mediante un tokenizador, TiTok también muestra su eficiencia en la generación de imágenes mediante el uso de una canalización típica. Para el marco de generación, se utiliza MaskGIT debido a su simplicidad y efectividad, lo que permite entrenar un modelo MaskGIT simplemente reemplazando su tokenizador VQGAN con el modelo TiTok. El proceso comienza con la tokenización previa de la imagen en tokens discretos 1D, y una proporción aleatoria de los tokens latentes se reemplaza con tokens de máscara en cada paso de entrenamiento. Después de eso, un transformador bidireccional toma esta secuencia de tokens enmascarados como entrada y predice las ID de tokens discretos correspondientes para los tokens enmascarados.
TiTok proporciona una forma más compacta de representación latente, lo que la hace mucho más eficiente que los métodos tradicionales. Por ejemplo, una imagen de 256 × 256 × 3 se puede reducir a solo 32 tokens discretos, en comparación con los 256 o 1024 tokens utilizados por técnicas anteriores. Utilizando el mismo marco generador, TiTok logra una puntuación gFID de 1,97, superando la línea base MaskGIT en 4,21 en el punto de referencia ImageNet 256 × 256. Las ventajas de TiTok son aún más significativas a resoluciones más altas. En la prueba de referencia ImageNet 512 × 512, TiTok no solo supera al modelo líder de difusión DiT-XL/2, sino que también reduce la cantidad de tokens de imágenes 64 veces, lo que resulta en un proceso de generación 410 veces más rápido.
En este artículo, los investigadores han introducido un método innovador que tokeniza imágenes en secuencias latentes 1D llamado TiTok. Puede utilizarse para reconstruir y generar imágenes naturales. Se proporciona una formulación compacta para tokenizar una imagen en una secuencia latente 1D. El método propuesto puede representar una imagen con entre 8 y 64 veces menos tokens que los tokenizadores 2D comúnmente utilizados. Además, los tokens 1D compactos mejoran la velocidad de entrenamiento e inferencia del modelo de generación, además de obtener un FID competitivo en los puntos de referencia de ImageNet. La dirección futura se centrará en modelos de generación y representación de imágenes más eficientes con tokenización de imágenes 1D.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 44k+ ML
Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.