Google Research presenta transformadores generativos de vocabulario infinito (GIVT): secuencias de vectores de valor real pioneras en IA

Los transformadores se introdujeron por primera vez y rápidamente adquirieron prominencia como la arquitectura principal en el procesamiento del lenguaje natural. Más recientemente, también han ganado una inmensa popularidad en la visión por computadora. Dosovitskiy et al. demostró cómo crear clasificadores de imágenes efectivos que superan las arquitecturas basadas en CNN en modelos y escalas de datos altas al dividir las imágenes en secuencias de parches, incrustar linealmente esos parches y luego alimentar la secuencia resultante de características a un codificador transformador. Para muchas tareas de visión discriminativas, como la segmentación, detección y clasificación, este enfoque es actualmente la norma. Sin embargo, como los decodificadores de transformadores generativos consumen y anticipan tokens discretos de algún vocabulario finito y predefinido, mapear una imagen a una secuencia de vectores de características (no cuantificados) no es apropiado para la producción de imágenes basada en transformadores.

Una estructura como esta se adapta naturalmente al lenguaje natural, y los modelos solo decodificadores permiten una capacitación efectiva a través del forzamiento del instructor y un sólido modelado generativo secuencial. Esfuerzos recientes han utilizado una técnica de dos etapas para asignar imágenes a una secuencia de tokens discretos utilizando un codificador automático variacional cuantificado por vectores (VQ-VAE) y luego aprender un decodificador transformador para modelar la distribución latente de tokens discretos. Este enfoque tiene como objetivo aprovechar estas capacidades para las imágenes. Al simplemente concatenar los vocabularios de las diversas modalidades, incluidos texto e imágenes, dicha tokenización de imágenes basada en VQ-VAE también permite modelos generativos multimodales entrelazados. Aunque este método de dos pasos funcionó bien para crear imágenes y contenido multimodal, presenta algunos problemas.

La cantidad de datos que se pueden conservar en la secuencia de codificación latente y la cantidad de modelado visual que maneja el decodificador VQ-VAE depende del tamaño del vocabulario en VQ-VAE. Un vocabulario breve puede facilitar el modelado latente, pero también reduce el contenido informativo del código latente, lo que dificulta la regulación de los detalles finos en la formación de imágenes y afecta la calidad de las aplicaciones que utilizan los tokens para predicciones densas o tareas discriminativas de bajo nivel. Aumentar el tamaño del vocabulario puede ayudar a abordar este problema, pero hacerlo puede resultar en un uso deficiente del vocabulario, lo que obliga a las configuraciones VQ-VAE de alta fidelidad a depender de una variedad de métodos sofisticados como pérdidas de entropía o división de libros de códigos. Además, los vocabularios enormes dan como resultado enormes matrices de incrustación que ocupan mucha memoria, lo que podría resultar problemático en escenarios multimodales cuando se mezclan vocabularios de diferentes modalidades. El equipo de investigación sugiere cambiar los transformadores solo decodificadores para eliminar el requisito de tokens discretos y, por lo tanto, vocabularios fijos y limitados para evitar estos problemas.

En particular, el equipo de investigación de Google DeepMind y Google Research sugiere un decodificador transformador generativo que funcione con secuencias vectoriales de valor real. El equipo de investigación se refiere a esto como un Transformador Generativo de Vocabulario Ilimitado (GIVT), ya que los vectores de valor real pueden considerarse como un vocabulario ilimitado. Como se ve en la Fig. 1, el equipo de investigación modificó ligeramente el diseño del decodificador del transformador (dos modificaciones en total). 1) En la entrada, el equipo de investigación incorpora linealmente una secuencia de vectores de valor real en lugar de buscar un vocabulario finito de incorporaciones utilizando una serie de tokens discretos; 2) en el resultado, el equipo de investigación predice los parámetros de una distribución continua sobre vectores de valores reales en lugar de predecir los parámetros de una distribución categórica sobre un vocabulario finito (a través de logits). El equipo de investigación entrenó este modelo utilizando el forzamiento del profesor y una máscara de atención causal, al igual que los típicos decodificadores de transformadores. Alternativamente, el equipo de investigación investigó el modelado bidireccional enmascarado progresivo rápido, similar a MaskGIT.

Figura 1 utiliza el mismo diseño de solo decodificador para comparar la variación continua de vocabulario infinito (GIVT, derecha) con el típico transformador generador de tokens discretos (izquierda). GIVT reemplaza tokens discretos mediante búsqueda en la entrada con una secuencia de vectores de valor real que están incrustados linealmente. En lugar de predecir una distribución categórica sobre un vocabulario finito, GIVT predice los parámetros de una distribución continua sobre vectores de valores reales en la salida.

La serie de píxeles RGB creada al aplanar una imagen de alta resolución es un ejemplo de una secuencia que puede ser difícil de modelar directamente, aunque en teoría GIVT se puede aplicar a cualquier secuencia de vectores de características. También puede ser excesivamente largo o seguir una distribución complicada. Por lo tanto, el equipo de investigación primero entrena un espacio latente de dimensiones inferiores utilizando un VAE previo gaussiano y luego lo modela con GIVT, que es similar a la técnica de dos etapas con VQ-VAE y similar al enfoque de dos etapas de latente. -modelos de difusión. El equipo de investigación también transfirió una serie de estrategias de inferencia (como el muestreo de temperatura y la guía sin clasificador) de la literatura sobre modelado de secuencias.

Sorprendentemente, al depender únicamente de tokens de valor real, esto produce un modelo que es superior o equivalente a las técnicas basadas en VQ. A continuación se describen sucintamente sus principales contribuciones:

1. Utilizando UViM, el equipo de investigación demuestra que GIVT logra un rendimiento similar o mejor que el típico decodificador transformador de token discreto en tareas de predicción densas, incluida la segmentación semántica y la estimación de profundidad, así como la síntesis de imágenes.

2. El equipo de investigación derivó y demostró la eficacia de variaciones de los métodos de muestreo tradicionales para el caso continuo, incluido el muestreo de temperatura, la búsqueda por haz y la guía sin clasificador (CFG).

3. Utilizando la ponderación de términos KL, el equipo de investigación examina la conexión entre el nivel de regularización del espacio latente VAE y las características de GIVT que emergen. El equipo de investigación destaca que los sofisticados métodos de entrenamiento de la literatura VQ-VAE, como las pérdidas auxiliares en la representación latente, la reinicialización del libro de códigos o los algoritmos de optimización especializados, no se utilizan en el entrenamiento VAE y GIVT; más bien, se basan simplemente en enfoques normales de caja de herramientas de aprendizaje profundo.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.