Perceiver AR: generación autorregresiva de contexto largo y de propósito general

En los últimos años, los Transformers autorregresivos han aportado un flujo constante de avances en el modelado generativo. Estos modelos generan cada elemento de una muestra (los píxeles de una imagen, los caracteres de un texto (normalmente en fragmentos “simbólicos”), las muestras de una forma de onda de audio, etc.) prediciendo un elemento tras otro. Al predecir el siguiente elemento, el modelo puede mirar hacia atrás en los que se crearon anteriormente.

Sin embargo, cada una de las capas de un Transformer se vuelve más costosa a medida que se utilizan más elementos como entrada, y los profesionales solo pueden darse el lujo de entrenar Transformers profundos en secuencias que no tengan más de 2.048 elementos de longitud. Y por eso, la mayoría de los modelos basados ​​en Transformer ignoran todos los elementos más allá del pasado más reciente (alrededor de 1500 palabras o 1/6 de una imagen pequeña) al hacer una predicción.

En contraste, nuestro recientemente desarrollado Modelos de perceptor Ofrece excelentes resultados en una variedad de tareas del mundo real con hasta alrededor de 100.000 elementos. Los perceptores utilizan la atención cruzada para codificar las entradas en un espacio latente, desacoplando los requisitos de cálculo de la entrada desde la profundidad del modelo. Los perceptores también gastan un costo fijo, independientemente del tamaño de la entrada, en casi todas las capas.

Mientras que la codificación de espacio latente maneja todos los elementos en una sola pasada, la generación autorregresiva supone que el procesamiento ocurre un elemento a la vez. Para abordar este problema, Perceiver AR propone una solución simple: alinear las latentes una por una con los elementos finales de la entrada y enmascarar cuidadosamente la entrada para que las latentes vean solo los elementos anteriores.

Perceiver AR asigna una secuencia de entrada (P erceiver AR) a un pequeño espacio latente mediante atención cruzada para producir una latente para cada token objetivo (se muestran 3 latentes, una para los objetivos AR , para miDakota del Norte ohF Ssecuencia). Estos latentes luego son procesados ​​por una profunda pila de capas de autoatención. Perceiver AR se puede entrenar para la generación autorregresiva de un extremo a otro, al mismo tiempo que se utilizan secuencias de entrada muy largas.

El resultado es una arquitectura (que se muestra arriba) que atiende entradas hasta 50 veces más largas que los Transformers estándar, mientras se implementa tan ampliamente (y esencialmente con la misma facilidad) que los Transformers estándar solo con decodificador.

A medida que aumenta la longitud del contexto o el tamaño del modelo, crece la cantidad de computación necesaria para entrenar un modelo. Podemos cuantificar el presupuesto de cómputo para diferentes modelos midiendo su velocidad en hardware real (pasos por segundo en TPUv3), a medida que aumentan la longitud del contexto de entrada y el tamaño del modelo. A diferencia de otros modelos generativos como Transformer o Transformer-XL, Perceiver AR desacopla la longitud del contexto de entrada de la profundidad del modelo, lo que nos permite implementar fácilmente los modelos profundos necesarios para modelar secuencias largas en TPU o GPU de la generación actual.

Perceiver AR escala considerablemente mejor con el tamaño que los modelos Transformers y Transformer-XL estándar en un rango de longitudes de secuencia en términos reales. Esta propiedad nos permite construir modelos de contexto largo muy efectivos. Por ejemplo, encontramos que un Perceiver AR de 60 capas con una longitud de contexto de 8192 supera a un Transformer-XL de 42 capas en una tarea de generación de la longitud de un libro, mientras que funciona más rápido en términos de reloj de pared real.

En los puntos de referencia de generación de imágenes estándar de contexto largo (ImageNet 64×64), lenguaje (PG-19) y música (MAESTRO), Perceiver AR produce resultados de última generación. Aumentar el contexto de entrada al desacoplar el tamaño de entrada del presupuesto informático genera varios resultados interesantes:

  • El presupuesto informático se puede adaptar en el momento de la evaluación, lo que nos permite gastar menos y degradar la calidad sin problemas o gastar más en una generación mejorada.
  • Un contexto más amplio permite que Perceiver AR supere a Transformer-XL, incluso cuando gasta lo mismo en computación. Descubrimos que un mayor contexto conduce a un mejor rendimiento del modelo incluso a una escala asequible (~1B de parámetros).
  • La calidad de la muestra de Perceiver AR muestra mucha menos sensibilidad al orden en el que genera elementos. Esto hace que Perceiver AR sea fácil de aplicar a configuraciones que no tienen un orden natural de izquierda a derecha, como datos como imágenes, con una estructura que abarca más de una dimensión.

Utilizando un conjunto de datos de música de piano, entrenamos a Perceiver AR para generar nuevas piezas musicales desde cero. Debido a que cada nueva nota se predice en función de la secuencia completa de notas anteriores, Perceiver AR puede producir piezas con un alto nivel de coherencia melódica, armónica y rítmica:

Obtenga más información sobre el uso de Perceiver AR:

  • Descarga el código JAX para entrenar Perceiver AR en Github
  • Lea nuestro artículo sobre arXiv
  • Vea nuestra presentación destacada en ICML 2022

Ver el Google Magenta entrada en el blog ¡Con más música!