La generación de imágenes autorregresivas ha sido formada por los avances en el modelado secuencial, visto originalmente en el procesamiento del lenguaje natural. Este campo se centra en generar imágenes un token a la vez, similar a cómo se construyen las oraciones en los modelos de idiomas. El atractivo de este enfoque radica en su capacidad para mantener la coherencia estructural a través de la imagen al tiempo que permite altos niveles de control durante el proceso de generación. A medida que los investigadores comenzaron a aplicar estas técnicas a los datos visuales, encontraron que la predicción estructurada no solo conservaba la integridad espacial sino que también respaldaba tareas como la manipulación de imágenes y la traducción multimodal de manera efectiva.
A pesar de estos beneficios, generar imágenes de alta resolución sigue siendo computacionalmente costosa y lenta. Un problema principal es el número de tokens necesarios para representar imágenes complejas. Los métodos de escaneo de trama que aplanan las imágenes 2D en secuencias lineales requieren miles de tokens para imágenes detalladas, lo que resulta en largos tiempos de inferencia y un alto consumo de memoria. Los modelos como Infinity necesitan más de 10,000 tokens para una imagen de 1024 × 1024. Esto se vuelve insostenible para aplicaciones en tiempo real o al escalar a conjuntos de datos más extensos. Reducir la carga del token mientras preserva o mejora la calidad de la producción se ha convertido en un desafío apremiante.
Los esfuerzos para mitigar la inflación del token han llevado a innovaciones como la predicción de la próxima escala vista en Var y FlexVar. Estos modelos crean imágenes prediciendo escalas progresivamente más finas, lo que imita la tendencia humana a esbozar contornos aproximados antes de agregar detalles. Sin embargo, aún confían en cientos de tokens: 680 en el caso de VAR y FlexVar para 256 × 256 imágenes. Además, los enfoques como Titok y Fyxtek usan tokenización 1D para comprimir la redundancia espacial, pero a menudo no pueden escalar de manera eficiente. Por ejemplo, el GFID de Flexxtok aumenta de 1.9 a 32 tokens a 2.5 a 256 tokens, destacando una degradación en la calidad de la salida a medida que crece el recuento de tokens.
Los investigadores de Bytedance introdujeron DetellFlow, un marco de generación de imágenes autorregresivo 1D. Este método organiza secuencias de token de detalles globales a finos utilizando un proceso llamado predicción de Next-Detail. A diferencia de las técnicas tradicionales de escala de ráster 2D o basadas en escala, Dellflow emplea un tokenizador 1D entrenado en imágenes degradadas progresivamente. Este diseño permite que el modelo priorice las estructuras de imágenes fundamentales antes de refinar los detalles visuales. Al mapear los tokens directamente a los niveles de resolución, Detailflow reduce significativamente los requisitos de token, lo que permite que las imágenes se generen de manera semánticamente ordenada y gruesa.
El mecanismo en detalle se centra en un espacio latente 1D donde cada token contribuye incrementalmente más detalles. Los tokens anteriores codifican características globales, mientras que los tokens posteriores refinan aspectos visuales específicos. Para capacitar esto, los investigadores crearon una función de mapeo de resolución que vincula el recuento de tokens para la resolución objetivo. Durante el entrenamiento, el modelo está expuesto a imágenes de niveles de calidad diferentes y aprende a predecir los resultados de resolución progresivamente más alto a medida que se introducen más tokens. También implementa la predicción del token paralelo al agrupar secuencias y predecir conjuntos completos a la vez. Dado que la predicción paralela puede introducir errores de muestreo, se integró un mecanismo de autocorrección. Este sistema pertenece a ciertos tokens durante la capacitación y enseña tokens posteriores para compensar, asegurando que las imágenes finales mantengan la integridad estructural y visual.
Los resultados de los experimentos en el punto de referencia ImageNet 256 × 256 fueron notables. Detellflow logró una puntuación GFID de 2.96 usando solo 128 tokens, superando VAR a 3.3 y FlexVar a 3.05, los cuales usaron 680 tokens. Aún más impresionante, Detellflow-64 alcanzó un GFID de 2.62 usando 512 tokens. En términos de velocidad, entregó casi el doble de la tasa de inferencia de VAR y FlexVar. Un estudio de ablación adicional confirmó que el entrenamiento de autocorrección y el orden semántico de los tokens mejoraron sustancialmente la calidad de la producción. Por ejemplo, habilitar la autocorrección redujo el GFID de 4.11 a 3.68 en una configuración. Estas métricas demuestran una generación de mayor calidad y más rápida en comparación con los modelos establecidos.
Al centrarse en la estructura semántica y la reducción de la redundancia, Dellflow presenta una solución viable a problemas de larga data en la generación de imágenes autorregresivas. El enfoque grueso a fino del método, la decodificación paralela eficiente y la capacidad de autocorrección de la autocorción resaltan cómo las innovaciones arquitectónicas pueden abordar las limitaciones de rendimiento y escalabilidad. A través de su uso estructurado de tokens 1D, los investigadores de Bytedance han demostrado un modelo que mantiene una alta fidelidad de la imagen al tiempo que reduce la carga computacional significativamente, lo que lo convierte en una valiosa adición a la investigación de síntesis de imágenes.
Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.