El pronóstico de series de tiempo ayuda a las empresas a predecir tendencias futuras basadas en patrones de datos históricos, ya sea para proyecciones de ventas, gestión de inventario o pronóstico de demanda. Los enfoques tradicionales requieren un amplio conocimiento de los métodos estadísticos y los métodos de ciencia de datos para procesar datos de series de tiempo sin procesar.
Canvas de Amazon Sagemaker Ofrece soluciones sin código que simplifican la disputa de datos, haciendo que el pronóstico de series de tiempo sea accesible para todos los usuarios, independientemente de sus antecedentes técnicos. En esta publicación, exploramos cómo Sagemaker Canvas y Sagemaker Data Wrangler Proporcione técnicas de preparación de datos sin código que capaciten a los usuarios de todos los orígenes para preparar datos y crear modelos de pronóstico de series temporales en una sola interfaz con confianza.
Descripción general de la solución
El uso de SageMaker Data Wrangler para la preparación de datos permite la modificación de datos para análisis predictivos sin conocimiento de programación. En esta solución, demostramos los pasos asociados con este proceso. La solución incluye lo siguiente:
- Importación de datos de fuentes variables
- Recomendaciones algorítmicas automáticas sin código para la preparación de datos
- Procesos paso a paso para la preparación y el análisis
- Interfaces visuales para la visualización y análisis de datos
- Capacidades de exportación Post de preparación de datos
- Características integradas de seguridad y cumplimiento
En esta publicación, nos centramos en la preparación de datos para el pronóstico de series de tiempo utilizando Lienzo de sagemaker.
Tutorial
El siguiente es un tutorial de la solución para la preparación de datos utilizando Amazon Sagemaker Canvas. Para el tutorial, utiliza el conjunto de datos sintético de consumo electrónica que se encuentra en este SAGEMAKER CONVASTO DE IMENSIÓN Laboratorioque te animamos a intentar. Este conjunto de datos de la Serie de Tiempo Relacionado con Electrónica (RTS) de Consumer contiene principalmente datos de precios históricos que corresponden a las transacciones de ventas a lo largo del tiempo. Este conjunto de datos está diseñado para complementar los datos de la Serie de Tiempo objetivo (TTS) para mejorar la precisión de la predicción en los modelos de pronóstico, particularmente para las ventas de electrónica de consumo, donde los cambios en los precios pueden afectar significativamente el comportamiento de compra. El conjunto de datos se puede utilizar para la pronóstico de la demanda, la optimización de precios y el análisis de mercado en el sector electrónico de consumo.
Requisitos previos
Para este tutorial, debe tener los siguientes requisitos previos:
Tutorial de la solución
A continuación, proporcionaremos el tutorial de la solución y explicaremos cómo los usuarios pueden usar un conjunto de datos, preparar los datos que no usan código usando Data Wrangler, y ejecutaron y capacitan un modelo de pronóstico de series temporales utilizando SageMaker Canvas.
Inicie sesión en la consola de administración de AWS y vaya a Amazon Sagemaker AI y luego a Canvas. En el Empezar Página, seleccione Importar y preparar opción. Verá las siguientes opciones para importar su conjunto de datos en Sagemaker Data Wrangler. Primero, seleccione datos tabulares, ya que utilizaremos estos datos para nuestro pronóstico de series de tiempo. Verá las siguientes opciones disponibles para seleccionar:
- Subida local
- Conjuntos de datos de lona
- Amazon S3
- Amazon Redshift
- Amazon Athena
- Databricks
- Mysql
- Postgresql
- Servidor SQL
- RDS
Para esta demostración, seleccione Subida local. Cuando usa esta opción, los datos se almacenan en la instancia de Sagemaker, específicamente en un Sistema de archivos elástico de Amazon (Amazon EFS) Volumen de almacenamiento en el entorno Sagemaker Studio. Este almacenamiento está vinculado a la instancia de SageMaker Studio, pero para fines de almacenamiento de datos más permanentes, Amazon Simple Storage Service (Amazon S3) es una buena opción cuando se trabaja con Sagemaker Data Wrangler. Para la gestión de datos a largo plazo, se recomienda Amazon S3.
Seleccione el consumer_electronics.csv Archivo de los requisitos previos. Después de seleccionar el archivo para importar, puede usar el Importar configuración Panel para establecer las configuraciones deseadas. Para el propósito de esta demostración, deje las opciones a sus valores predeterminados.
Después de completar la importación, use el Flujo de datos Opciones para modificar los datos recién importados. Para futuros pronósticos de datos, es posible que deba limpiar los datos para que el servicio comprenda adecuadamente los valores y no tenga en cuenta los errores en los datos. Sagemaker Canvas tiene varias ofertas para lograr esto. Opción incluir Chat para la preparación de datos con modificaciones de datos del lenguaje natural y Agregar transformación. El chat para la preparación de datos puede ser mejor para los usuarios que prefieren las interacciones de procesamiento del lenguaje natural (PNL) y pueden no estar familiarizados con las transformaciones de datos técnicos. ADD Transform es lo mejor para los profesionales de datos que saben qué transformaciones desean aplicar a sus datos.
Para el pronóstico de series de tiempo utilizando el lienzo de Amazon Sagemaker, Los datos deben estar preparados de cierta manera para que el servicio pronoste y comprenda correctamente los datos. Para hacer un pronóstico de series de tiempo utilizando el lienzo de Sagemaker, la documentación vinculada menciona los siguientes requisitos:
- Una columna de marca de tiempo con todos los valores que tienen el tipo de fecha y hora.
- Una columna objetivo que tiene los valores que está utilizando para pronosticar valores futuros.
- Una columna de ID de elemento que contiene identificadores únicos para cada elemento en su conjunto de datos, como los números de SKU.
Los valores de DateTime en la columna de marca de tiempo deben usar uno de los siguientes formatos:
- Yyyy-mm-dd HH: mm: ss
- Yyyy-mm-ddthh: mm: ssz
- Yyyy-mm-dd
- Mm/dd/yy
- Mm/dd/yy hh: mm
- Mm/dd/yyyy
- Yyyy/mm/dd HH: mm: ss
- Yyyy/mm/dd
- Dd/mm/aaa
- Dd/mm/yy
- DD-MM-YY
- Dd-mm-yyyy
Puede hacer pronósticos para los siguientes intervalos:
- 1 min
- 5 min
- 15 min
- 30 minutos
- 1 hora
- 1 día
- 1 semana
- 1 mes
- 1 año
Para este ejemplo, elimine el $ en los datos, utilizando el Chat para la preparación de datos opción. Dale a la chat un aviso como Can you get rid of the $ in my datay generará código para acomodar su solicitud y modificar los datos, brindándole una solución sin código para preparar los datos para el modelado futuro y el análisis predictivo. Elegir Agregar a los pasos para aceptar este código y aplicar cambios a los datos.
También puede convertir los valores para flotar el tipo de datos y verificar los datos faltantes en su archivo CSV cargado utilizando el chat para la preparación de datos o agregar opciones de transformación. Para soltar los valores faltantes usando la transformación de datos:
- Seleccione Agregar transformación de la interfaz
- Elija que falte el mango de las opciones de transformación
- Seleccione la caída de las operaciones disponibles
- Elija las columnas que desea verificar los valores faltantes
- Seleccione Vista previa para verificar los cambios
- Elija Agregar para confirmar y aplicar la transformación
Para el pronóstico de la serie temporal, inferir valores faltantes y volver a muestrear el conjunto de datos a una cierta frecuencia (por hora, diariamente o semanal) también son importantes. En Sagemaker Data Wrangler, la frecuencia de los datos se puede alterar eligiendo Agregar transformaciónseleccionando Serie de tiemposeleccionando Volver a muestrear desde Transformar desplegable y luego seleccionando el Marca de tiempo desplegable, TS en este ejemplo. Luego, puede seleccionar opciones avanzadas. Por ejemplo, elige Unidad de frecuencia y luego seleccione la frecuencia deseada de la lista.
Sagemaker Data Wrangler ofrece varios métodos para manejar los valores faltantes en los datos de la serie temporal a través de sus Mango faltante transformar. Puede elegir entre opciones como reenvío o relleno hacia atrásque son particularmente útiles para mantener la estructura temporal de los datos. Estas operaciones se pueden aplicar utilizando comandos de lenguaje natural en Chat para la preparación de datospermitiendo el manejo flexible y eficiente de los valores faltantes en la preparación de pronóstico de la serie temporal.
Para crear el flujo de datos, elija Crear modelo. Entonces, elige Validación de ejecuciónque verifica los datos para asegurarse de que los procesos se realizaran correctamente. Después de este paso de transformación de datos, puede acceder a opciones adicionales seleccionando el signo Purple Plus. Las opciones incluyen Obtener información de datos, Chat para la preparación de datos, Combinar datos, Crear modeloy Exportar.
Los datos preparados se pueden conectar a Sagemaker AI para estrategias de pronóstico de series de tiempo, en este caso, para predecir la demanda futura basada en los datos históricos que se han preparado para el aprendizaje automático.
Al usar Sagemaker, también es importante considerar el almacenamiento y la seguridad de los datos. Para la función de importación local, los datos se almacenan en volúmenes de Amazon EFS y se cifran de forma predeterminada. Para un almacenamiento más permanente, se recomienda Amazon S3. S3 ofrece características de seguridad como cifrado del lado del servidor (SSE-S3, SSE-KMS o SSE-C), controles de acceso de grano fino a través de AWS Identity and Access Management (IAM) roles y políticas de cubo, y la capacidad de usar puntos finales VPC para mayor seguridad de la red. Para ayudar a garantizar la seguridad de los datos en cualquier caso, es importante implementar controles de acceso adecuados, usar el cifrado para datos en reposo y en tránsito, auditar regularmente registros de acceso y seguir el principio de menor privilegio al asignar permisos.
En el siguiente paso, aprende a entrenar un modelo usando el lienzo de Sagemaker. Basado en el paso anterior, seleccione el signo Purple Plus y seleccione Crear modeloy luego seleccionar Exportar para crear un modelo. Después de seleccionar una columna para predecir (seleccione precio Para este ejemplo), vas al Construir pantalla, con opciones como Construcción rápida y Compilación estándar. Según la columna elegida, el modelo predecirá valores futuros basados en los datos que se están utilizando.
Limpiar
Para evitar incurrir en cargos futuros, elimine el flujo de datos de Data Wrangler de Sagemaker y los cubos S3 si se usan para el almacenamiento.
- En la consola de Sagemaker, navegue a lienzo
- Seleccione importar y preparar
- Encuentre su flujo de datos en la lista
- Haga clic en el menú de tres puntos (⋮) junto a su flujo
- Seleccione Eliminar para eliminar el flujo de datos
Si usó S3 para el almacenamiento:
- Abra la consola de Amazon S3
- Navegue a su cubo
- Seleccione el cubo utilizado para este proyecto
- Elija Eliminar
- Escriba el nombre del cubo para confirmar la eliminación
- Seleccione Bucket Eliminar
Conclusión
En esta publicación, le mostramos cómo Amazon Sagemaker Data Wrangler ofrece una solución sin código para la preparación de datos de series de tiempo, tradicionalmente una tarea que requiere experiencia técnica. Al utilizar la interfaz intuitiva de la consola de Data Wrangler y las herramientas naturales que funcionan con el lenguaje, incluso los usuarios que no tienen antecedentes técnicos pueden preparar efectivamente sus datos para futuras necesidades de pronóstico. Esta democratización de la preparación de datos no solo ahorra tiempo y recursos, sino que también permite que una gama más amplia de profesionales participe en la toma de decisiones basada en datos.
Sobre el autor
Muni T. Bondu es un arquitecto de soluciones en Amazon Web Services (AWS), con sede en Austin, Texas. Tiene una Licenciatura en Ciencias de la Computación, con concentraciones en inteligencia artificial e interacción humana-computadora, del Instituto de Tecnología de Georgia.