El pronóstico de la serie temporal presenta un desafío fundamental debido a su no determinismo intrínseco, lo que dificulta predecir los valores futuros con precisión. Los métodos tradicionales generalmente emplean el pronóstico de puntos, proporcionando un único valor determinista que no puede describir el rango de valores posibles. Aunque reciente aprendizaje profundo Los métodos han mejorado la precisión de pronóstico, requieren capacitación específica de tareas y no generalizan a través de las distribuciones observadas. La mayoría de los modelos colocan suposiciones paramétricas estrictas o utilizan tokenización discreta, que pueden dar lugar a problemas fuera de vocabulario y errores de cuantificación. Superar estas restricciones es clave para crear modelos de pronóstico de series temporales escalables, transferibles y generalizables que pueden funcionar a través de dominios sin un rehabilitación extensa.

Los modelos de pronóstico actuales se pueden dividir aproximadamente en dos categorías: modelos estadísticos y modelos basados ​​en el aprendizaje profundo. Los modelos estadísticos, como ARIMA y suavizado exponencial, son interpretables pero no pueden capturar las complejas dependencias de grandes conjuntos de datos. Los modelos de aprendizaje profundo basados ​​en transformadores muestran una habilidad predictiva impresionante; Sin embargo, no son robustos, requieren una amplia capacitación en distribución y son extremadamente dependientes de la tokenización discreta. Este esquema de tokenización, utilizado en marcos como TimesFM, Timer y Moirai, incorpora datos de series de tiempo en secuencias de token categóricas, descartando información de grano fino, aprendizaje de representación rígida e inconsistencias de cuantización potenciales. Además, la mayoría de los modelos de pronóstico se basan en distribuciones probabilísticas anteriores, como los antecedentes gaussianos, que limitan su capacidad para capturar la naturaleza rica y altamente variable de los datos del mundo real. Estas restricciones limitan la capacidad de los métodos existentes para proporcionar pronósticos probabilísticos precisos y confiables que reflejan adecuadamente la incertidumbre en las aplicaciones de toma de decisiones.

Para superar estos desafíos, Sundial propone un modelo de base de series de tiempo generativas, escalables y flexibles que puede aprender patrones complejos de datos sin procesar directamente. A diferencia de la tokenización discreta, utiliza la tokenización continua con parches nativos, lo que mantiene la continuidad de las series de tiempo y permite un aprendizaje de representación más expresivo. Una de las innovaciones detrás de su poder de pronóstico es la pérdida de flujo de tiempo, un objetivo de entrenamiento generativo basado en el flujo de flujo, que puede permitir que el modelo aprenda distribuciones predictivas sin supuestos probabilísticos de antemano. Este enfoque evita el colapso del modo y permite múltiples trayectorias futuras plausibles en lugar de una única predicción determinista. Además, el modelo está entrenado en TimeBench, un conjunto de datos a gran escala de un billón de puntos de tiempo muestreados de series de tiempo sintéticas del mundo real y sintéticas, que lo dotan con fuertes capacidades de generalización en una amplia gama de tareas de pronóstico.

Sundial combina varias innovaciones en tokenización, arquitectura y métodos de capacitación. Su sistema de tokenización continua basado en parches nativo procesa los datos de series de tiempo como segmentos continuos en lugar de segmentarlos en tokens categóricos discretos. Un método de re-normalización mejora la generalización al gestionar la variabilidad en el conjunto de datos y los cambios de distribución. La arquitectura básica es un transformador de decodificador que utiliza incrustaciones de autocatidos causales y posición giratoria, que mejoran su capacidad para gestionar las dependencias temporales. La estabilidad del entrenamiento y la eficiencia de inferencia se mejoran a través de las optimizaciones de pre-LN, flashatención y caché de KV. La introducción de la pérdida de flujo de tiempo permite el pronóstico probabilístico a través de la coincidencia de flujo, lo que permite que el modelo aprenda distribuciones no paramétricas sin estar limitado por supuestos fijos. En lugar de producir una estimación de un solo punto, el modelo produce múltiples resultados posibles, mejorando así los procesos de toma de decisiones en entornos inciertos. La capacitación se realiza en TimeBench, un conjunto de datos de billones de escala que cubre temas en finanzas, clima, IoT, atención médica y más, lo que garantiza una amplia aplicabilidad y fuerza en una amplia gama de dominios.

Sundial logra un rendimiento de última generación en una variedad de puntos de referencia de pronóstico de cero disparos, que reflejan una precisión superior, eficiencia y escalabilidad. En el contexto de pronósticos a largo plazo, supera a los modelos de base de la serie temporal previa de manera consistente, lo que refleja reducciones sustanciales en el error medio cuadrado y el error absoluto medio. En el pronóstico probabilístico, Sundial es uno de los modelos de alto rendimiento, lo que refleja la excelencia en métricas clave como MASE y CRPS, al tiempo que tiene una ventaja sustancial en términos de velocidad de inferencia. La escalabilidad del modelo es evidente, con configuraciones más grandes que conducen a una mejor precisión, y la pérdida de flujo de tiempo que refleja una mayor efectividad en comparación con los objetivos estándar basados ​​en MSE o difusión. Sundial también proporciona capacidades de inferencia flexibles, lo que permite a los usuarios intercambiar la eficiencia computacional y la precisión de pronóstico, lo que lo hace particularmente útil para aplicaciones prácticas que requieren pronósticos de series de tiempo confiables y adaptables.

Sundial es un gran avance en el pronóstico de la serie temporal con un marco de modelado generativo que combina tokenización continua, modelos de transformadores y un nuevo objetivo de entrenamiento probabilístico. Con la pérdida de flujo de tiempo, supera los métodos de pronóstico paramétricos convencionales al aprender distribuciones predictivas altamente flexibles y sin restricciones. Cuando se capacita en el conjunto de datos de tiempo de tiempo de billón de escala, logra de vanguardia en una variedad de tareas de pronóstico con una fuerte generalización de disparo cero. Su capacidad para generar múltiples trayectorias futuras plausibles, combinadas con su eficiencia, lo convierte en una poderosa herramienta de toma de decisiones en muchas industrias, reinventando así la promesa de modelos de base de series temporales.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional’ (Promocionado)


Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.

Por automata