Perceiver AR: generación autorregresiva de contexto largo y de propósito general

En los últimos años, los Transformers autorregresivos han aportado un flujo constante de avances en el modelado generativo. Estos modelos generan cada elemento de una muestra (los píxeles de una imagen, los caracteres de un texto (normalmente en fragmentos “simbólicos”), las muestras de una forma de onda de audio, etc.) prediciendo un elemento tras otro. Al predecir el siguiente elemento, el modelo puede mirar hacia atrás en los que se crearon anteriormente.

Sin embargo, cada una de las capas de un Transformer se vuelve más costosa a medida que se utilizan más elementos como entrada, y los profesionales solo pueden darse el lujo de entrenar Transformers profundos en secuencias que no tengan más de 2.048 elementos de longitud. Y por eso, la mayoría de los modelos basados ​​en Transformer ignoran todos los elementos más allá del pasado más reciente (alrededor de 1500 palabras o 1/6 de una imagen pequeña) al hacer una predicción.

En contraste, nuestro recientemente desarrollado Modelos de perceptor Ofrece excelentes resultados en una variedad de tareas del mundo real con hasta alrededor de 100.000 elementos. Los perceptores utilizan la atención cruzada para codificar entradas en un espacio latente, desacoplando los requisitos informáticos de la entrada de la profundidad del modelo. Los perceptores también gastan un costo fijo, independientemente del tamaño de la entrada, en casi todas las capas.

Mientras que la codificación de espacio latente maneja todos los elementos en una sola pasada, la generación autorregresiva supone que el procesamiento ocurre un elemento a la vez. Para abordar este problema, Perceiver AR propone una solución simple: alinear las latentes una por una con los elementos finales de la entrada y enmascarar cuidadosamente la entrada para que las latentes vean solo los elementos anteriores.

El resultado es una arquitectura (que se muestra arriba) que atiende entradas hasta 50 veces más largas que los Transformers estándar, mientras se implementa tan ampliamente (y esencialmente con la misma facilidad) que los Transformers estándar solo con decodificador.

Perceiver AR escala considerablemente mejor con el tamaño que los modelos Transformers y Transformer-XL estándar en un rango de longitudes de secuencia en términos reales. Esta propiedad nos permite construir modelos de contexto largo muy efectivos. Por ejemplo, encontramos que un Perceiver AR de 60 capas con una longitud de contexto de 8192 supera a un Transformer-XL de 42 capas en una tarea de generación de la longitud de un libro, mientras que funciona más rápido en términos de reloj de pared real.

En los puntos de referencia de generación de imágenes estándar de contexto largo (ImageNet 64×64), lenguaje (PG-19) y música (MAESTRO), Perceiver AR produce resultados de última generación. Aumentar el contexto de entrada al desacoplar el tamaño de entrada del presupuesto informático genera varios resultados interesantes:

  • El presupuesto informático se puede adaptar en el momento de la evaluación, lo que nos permite gastar menos y degradar la calidad sin problemas o gastar más en una generación mejorada.
  • Un contexto más amplio permite que Perceiver AR supere a Transformer-XL, incluso cuando gasta lo mismo en computación. Descubrimos que un mayor contexto conduce a un mejor rendimiento del modelo incluso a una escala asequible (~1B de parámetros).
  • La calidad de la muestra de Perceiver AR muestra mucha menos sensibilidad al orden en el que genera elementos. Esto hace que Perceiver AR sea fácil de aplicar a configuraciones que no tienen un orden natural de izquierda a derecha, como datos como imágenes, con una estructura que abarca más de una dimensión.

Utilizando un conjunto de datos de música de piano, entrenamos a Perceiver AR para generar nuevas piezas musicales desde cero. Debido a que cada nueva nota se predice en función de la secuencia completa de notas anteriores, Perceiver AR puede producir piezas con un alto nivel de coherencia melódica, armónica y rítmica:

Obtenga más información sobre el uso de Perceiver AR:

  • Descarga el código JAX para entrenar Perceiver AR en Github
  • Lea nuestro artículo sobre arXiv
  • Vea nuestra presentación destacada en ICML 2022

Ver el Google Magenta entrada en el blog ¡Con más música!