Transformer se ha convertido en el modelo básico que se adhiere a la regla de escala después de lograr un gran éxito en el procesamiento del lenguaje natural y la visión por computadora. El pronóstico de series temporales está viendo el surgimiento de un Transformer, que es altamente capaz de extraer representaciones multinivel de secuencias y representar relaciones por pares, gracias a su enorme éxito en otras disciplinas amplias. Sin embargo, la validez de los pronósticos basados en transformadores, que generalmente incorporan varias variantes de la misma marca de tiempo en canales indistinguibles y centran el énfasis en estos tokens temporales para capturar relaciones temporales, ha sido objeto de escrutinio últimamente por parte de los académicos.
Transformer se ha convertido en el modelo básico que se adhiere a la regla de escala después de lograr un gran éxito en el procesamiento del lenguaje natural y la visión por computadora. El pronóstico de series temporales está viendo el surgimiento de un Transformer, que es altamente capaz de extraer representaciones multinivel de secuencias y representar relaciones por pares, gracias a su enorme éxito en otras disciplinas amplias. Sin embargo, la validez de los pronósticos basados en transformadores, que generalmente incorporan varias variantes de la misma marca de tiempo en canales indistinguibles y centran el énfasis en estos tokens temporales para capturar relaciones temporales, ha sido objeto de escrutinio últimamente por parte de los académicos.
Observan que es posible que el pronóstico de series de tiempo multivariadas deba adaptarse mejor a la estructura actual de los pronosticadores basados en Transformer. El panel izquierdo de la Figura 2 toma nota del hecho de que los puntos del mismo paso de tiempo que esencialmente reflejan significados físicos radicalmente diversos capturados por mediciones contradictorias se combinan en una sola muestra con correlaciones multivariadas borradas. Además, debido al campo receptivo altamente local del mundo real y las marcas de tiempo desalineadas de múltiples puntos de tiempo, el token creado en un solo paso de tiempo puede tener dificultades para revelar información útil. Además, en la dimensión temporal, los mecanismos de atención invariantes de permutación se utilizan de manera inapropiada a pesar de que el orden de la secuencia podría tener un impacto significativo en las variaciones de las series.
Como resultado, Transformer pierde su capacidad para describir correlaciones multivariadas y capturar representaciones de series cruciales, lo que restringe sus capacidades de aplicación y generalización en varios datos de series temporales. Utilizan una perspectiva invertida de las series temporales e incorporan la serie temporal completa de cada variable por separado en un token, el ejemplo extremo de Patching que amplía el campo receptivo local en respuesta a la irracionalidad de incrustar puntos multivariados de cada paso de tiempo como un token. El token integrado invierte y agrega representaciones globales de series, que pueden utilizarse mejor mediante mecanismos de atención en auge para una correlación multivariada y más centrada en las variables.
Figura 1: Rendimiento de iTransformer. TimesNet se utiliza para informar resultados promedio (MSE).
Mientras tanto, la red de retroalimentación puede entrenarse para adquirir representaciones suficientemente generalizadas para diferentes variables que se codifican a partir de cualquier serie retrospectiva y luego se decodifican para pronosticar series posteriores. Por las razones descritas anteriormente, piensan que Transformer se está utilizando incorrectamente en lugar de ser ineficaz para el pronóstico de series temporales. En este estudio repasan la arquitectura de Transformer y promueven iTransformer como el marco esencial para el pronóstico de series de tiempo. En términos técnicos, utilizan la red de retroalimentación para la codificación de series, adoptan la atención para las correlaciones multivariadas e incorporan cada serie temporal como tokens variables. En términos de experimentación, el iTransformer sugerido aborda inesperadamente las deficiencias de los pronosticadores basados en Transformer y al mismo tiempo logra un rendimiento de vanguardia en los puntos de referencia de pronóstico del mundo real en la Figura 1.
Figura 2: Una comparación del iTransformer sugerido (abajo) y el Transformer básico (arriba). A diferencia de Transformer, que integra cada paso de tiempo en el token temporal, iTransformer integra toda la serie de forma independiente en el token variable. Como resultado, la red de retroalimentación codifica representaciones de series y el mecanismo de atención puede mostrar correlaciones multivariadas.
Tres cosas que han aportado son las siguientes:
• Investigadores de la Universidad de Tsinghua sugieren iTransformer, que considera las series temporales independientes como tokens para capturar correlaciones multivariadas mediante la autoatención. Utiliza normalización de capas y módulos de red de retroalimentación para aprender mejores representaciones globales de series para el pronóstico de series temporales.
• Reflexionan sobre la arquitectura de Transformer y refinan la capacidad competente de los componentes nativos de Transformer en series temporales que aún no se han explorado.
• En los puntos de referencia de predicción del mundo real, iTransformer obtiene consistentemente resultados de última generación en experimentos. Su análisis exhaustivo de los módulos invertidos y las decisiones arquitectónicas apunta a un camino potencial para el avance de los predictores basados en Transformer en el futuro.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.