Realice una preparación de datos generativa impulsada por IA y un aprendizaje automático sin código sobre datos de cualquier tamaño utilizando Amazon SageMaker Canvas

Lienzo de Amazon SageMaker Ahora, las empresas pueden aprovechar todo el potencial de sus datos al permitir el soporte de conjuntos de datos a escala de petabytes. A partir de hoy, puede preparar de forma interactiva grandes conjuntos de datos, crear flujos de datos de extremo a extremo e invocar experimentos de aprendizaje automático automatizado (AutoML) en petabytes de datos, un salto sustancial respecto del límite anterior de 5 GB. Con más de 50 conectores, una interfaz intuitiva Chat para preparación de datos Gracias a su interfaz y compatibilidad con petabytes, SageMaker Canvas proporciona una solución de aprendizaje automático escalable, de código bajo/sin código (LCNC) para gestionar casos de uso empresariales del mundo real.

Las organizaciones suelen tener dificultades para extraer información valiosa y valiosa de su creciente volumen de datos. Necesita experiencia en ingeniería de datos y tiempo para desarrollar los scripts y los procesos adecuados para procesar, limpiar y transformar los datos. Luego, debe experimentar con numerosos modelos e hiperparámetros que requieren experiencia en el dominio. Después, debe administrar clústeres complejos para procesar y entrenar sus modelos de ML en estos conjuntos de datos a gran escala.

A partir de hoy, puede preparar sus datos a escala de petabytes y explorar muchos modelos de ML con AutoML por chat y con unos pocos clics. En esta publicación, le mostramos cómo puede completar todos estos pasos con la nueva integración en SageMaker Canvas con Amazon EMR sin servidor sin escribir código.

Descripción general de la solución

Para esta publicación, utilizamos un conjunto de datos de muestra de un archivo CSV de 33 GB que contiene transacciones de compra de vuelos de Expedia entre el 16 de abril de 2022 y el 5 de octubre de 2022. Usamos las funciones para predecir la tarifa base de un boleto en función de la fecha del vuelo, la distancia, el tipo de asiento y otros.

En las siguientes secciones, demostramos cómo importar y preparar los datos, exportarlos opcionalmente, crear un modelo y ejecutar inferencias, todo en SageMaker Canvas.

Prerrequisitos

Puedes seguir completando los siguientes requisitos previos:

  1. Configuración Lienzo de SageMaker.
  2. Descargar el conjunto de datos de Kaggle y cárguelo en un Servicio de almacenamiento simple de Amazon (Cubo de Amazon S3).
  3. Agregar emr-serverless como entidad confiable para el rol de ejecución de SageMaker Canvas para permitir trabajos de procesamiento de Amazon EMR.

Importar datos en SageMaker Canvas

Comenzamos importando los datos de Amazon S3 usando Administrador de datos de Amazon SageMaker En SageMaker Canvas. Siga estos pasos:

  1. En SageMaker Canvas, elija Wrangler de datos en el panel de navegación.
  2. En el Flujos de datos pestaña, elegir Tabular en el Importar y preparar Menú desplegable.
  3. Ingrese la URI S3 para el archivo y seleccione Irluego elige Próximo.
  4. Dale un nombre a tu conjunto de datos, elige Aleatorio para Método de muestreoluego elige Importar.

La importación de datos desde el flujo de SageMaker Data Wrangler le permite interactuar con una muestra de los datos antes de escalar el flujo de preparación de datos al conjunto de datos completo. Esto mejora el tiempo y el rendimiento porque no necesita trabajar con la totalidad de los datos durante la preparación. Más adelante, puede utilizar EMR Serverless para realizar el trabajo pesado. Cuando SageMaker Data Wrangler finalice la importación, puede comenzar a transformar el conjunto de datos.

Después de importar el conjunto de datos, primero puede mirar el Informe de perspectivas sobre la calidad de los datos para ver recomendaciones de SageMaker Canvas sobre cómo mejorar la calidad de los datos y, por lo tanto, mejorar el rendimiento del modelo.

  1. En el flujo, elija el menú de opciones (tres puntos) para el nodo, luego elija Obtenga información sobre los datos.
  2. Dale un nombre a tu análisis, selecciona Regresión para Tipo de problemaelegir baseFare para Columna de destinoseleccionar Conjunto de datos muestreados para Tamaño de los datosluego elige Crear.

La evaluación de la calidad de los datos y el análisis de los hallazgos del informe suelen ser el primer paso, ya que pueden orientar los pasos de preparación de los datos siguientes. En el informe, encontrará estadísticas del conjunto de datos, advertencias de alta prioridad sobre fugas de datos, asimetrías, anomalías y un resumen de características.

Preparar los datos con SageMaker Canvas

Ahora que comprende las características de su conjunto de datos y los problemas potenciales, puede utilizar el Chat para preparación de datos Función de SageMaker Canvas para simplificar la preparación de datos con indicaciones en lenguaje natural. Esta capacidad generativa impulsada por inteligencia artificial (IA) reduce el tiempo, el esfuerzo y la experiencia necesarios para las tareas, a menudo complejas, de preparación de datos.

  1. Seleccione el archivo .flow en el banner superior para regresar a su lienzo de flujo.
  2. Seleccione el menú de opciones para el nodo y luego elija Chat para preparación de datos.

Para nuestro primer ejemplo, convertir searchDate y flightDate El formato datetime puede ayudarnos a realizar manipulaciones de fechas y extraer características útiles como año, mes, día y la diferencia de días entre searchDate y flightDateEstas características pueden encontrar patrones temporales en los datos que pueden influir en la baseFare.

  1. Proporcione un mensaje como “Convertir searchDate y flightDate al formato de fecha y hora” para ver el código y elegir Añadir a los pasos.

Además de la preparación de datos mediante la interfaz de chat, puede utilizar transformaciones LCNC con la interfaz de usuario de SageMaker Data Wrangler para transformar sus datos. Por ejemplo, utilizamos la codificación one-hot como técnica para convertir datos categóricos en formato numérico mediante la interfaz LCNC.

  1. Añadir la transformación Codificar categórico.
  2. Elegir Codificación one-hot para Transformar y agregue las siguientes columnas: startingAirport, destinationAirport, fareBasisCode, segmentsArrivalAirportCode, segmentsDepartureAirportCode, segmentsAirlineName, segmentsAirlineCode, segmentsEquipmentDescriptiony segmentsCabinCode.

Puede utilizar la opción de búsqueda y filtro avanzados en SageMaker Canvas para seleccionar columnas que sean del tipo de datos de cadena para simplificar el proceso.

Consulte la Blog de SageMaker Canvas Para otros ejemplos que utilizan SageMaker Data Wrangler. Para esta publicación, simplificamos nuestros esfuerzos con estos dos pasos, pero lo alentamos a que use tanto el chat como las transformaciones para agregar pasos de preparación de datos por su cuenta. En nuestras pruebas, ejecutamos con éxito todos nuestros pasos de preparación de datos a través del chat utilizando las siguientes indicaciones como ejemplo:

  • “Agregue otro paso que extraiga características relevantes como el año, el mes, el día y el día de la semana, lo que puede mejorar la temporalidad de nuestro conjunto de datos”
  • “Haga que Canvas convierta las columnas travelDuration, segmentsDurationInSeconds y segmentsDistance de cadena a numérica”
  • “Maneje los valores faltantes imputando la media para la columna totalTravelDistance y reemplazando los valores faltantes como ‘Desconocido’ para la columna segmentsEquipmentDescription”
  • “Convertir las columnas booleanas isBasicEconomy, isRefundable y isNonStop a formato entero (0 y 1)”
  • “Escale funciones numéricas como tarifa total, asientos restantes y distancia total de viaje utilizando el escalador estándar de scikit-learn”

Una vez completados estos pasos, puede pasar al siguiente paso de procesar el conjunto de datos completo y crear un modelo.

(Opcional) Exporte sus datos en Amazon S3 mediante un trabajo EMR Serverless

Puede procesar todo el conjunto de datos de 33 GB ejecutando el flujo de datos utilizando EMR Serverless para el trabajo de preparación de datos sin preocuparse por la infraestructura.

  1. Desde el último nodo del diagrama de flujo, seleccione Exportar y Exportar datos a Amazon S3.
  2. Proporcione un nombre de conjunto de datos y una ubicación de salida.
  3. Se recomienda mantener Configuración automática de trabajos Seleccione esta opción a menos que desee cambiar alguna de las configuraciones de procesamiento de Amazon EMR o SageMaker. (Si sus datos superan los 5 GB, el procesamiento de datos se ejecutará en EMR Serverless; de lo contrario, se ejecutará dentro del espacio de trabajo de SageMaker Canvas).
  4. Bajo EMR sin servidorproporcione un nombre de trabajo y elija Exportar.

Puede ver el estado del trabajo en SageMaker Canvas en el Wrangler de datos página en el Empleos pestaña.

También puede ver el estado del trabajo en la consola de Amazon EMR Studio eligiendo Aplicaciones bajo Sin servidor en el panel de navegación.

Crear un modelo

También puedes crear un modelo al final de tu flujo.

  1. Elegir Crear modelo desde las opciones del nodo, SageMaker Canvas creará un conjunto de datos y luego lo guiará para crear un modelo.
  2. Proporcione un conjunto de datos y un nombre de modelo, seleccione Análisis predictivo para Tipo de problemaelegir baseFare como columna de destino, luego elija Exportar y crear modelo.

El proceso de creación del modelo tardará un par de minutos en completarse.

  1. Elegir Mis modelos en el panel de navegación.
  2. Seleccione el modelo que acaba de exportar y navegue a la versión 1.
  3. Bajo Tipo de modeloelegir Configurar modelo.
  4. Seleccionar Tipo de modelo numéricoluego elige Ahorrar.
  5. En el menú desplegable, seleccione Construcción rápida para iniciar el proceso de construcción.

Cuando se complete la construcción, en el Analizar página, puede acceder a las siguientes pestañas:

  • Descripción general – Esto le brinda una descripción general del rendimiento del modelo, según el tipo de modelo.
  • Tanteo – Esto muestra visualizaciones que puede usar para obtener más información sobre el rendimiento de su modelo más allá de las métricas de precisión general.
  • Métricas avanzadas – Contiene las puntuaciones de su modelo para métricas avanzadas e información adicional que puede brindarle una comprensión más profunda del rendimiento de su modelo. También puede ver información como los impactos de la columna.

Ejecutar inferencia

En esta sección, repasaremos los pasos para ejecutar predicciones por lotes en el conjunto de datos generado.

  1. En el Analizar página, elige Predecir.
  2. Para generar predicciones en su conjunto de datos de prueba, elija Manual.
  3. Seleccione el conjunto de datos de prueba que creó y elija Generar predicciones.
  4. Cuando las predicciones estén listas, elija Vista en el mensaje emergente en la parte inferior de la página o navegue hasta el Estado columna para elegir Avance en el menú de opciones (tres puntos).

Ahora puedes revisar las predicciones.

Ya ha utilizado las capacidades de preparación de datos de IA generativa en SageMaker Canvas para preparar un gran conjunto de datos, ha entrenado un modelo con técnicas de AutoML y ha ejecutado predicciones por lotes a gran escala. Todo esto se hizo con unos pocos clics y utilizando una interfaz de lenguaje natural.

Limpiar

Para evitar incurrir en cargos por sesión en el futuro, cierre la sesión de SageMaker Canvas. Para cerrar la sesión, seleccione Finalizar la sesión en el panel de navegación de la aplicación SageMaker Canvas.

Cuando cierra sesión en SageMaker Canvas, sus modelos y conjuntos de datos no se ven afectados, pero SageMaker Canvas cancela todas las tareas de compilación rápida. Si cierra sesión en SageMaker Canvas mientras ejecuta una compilación rápida, es posible que la compilación se interrumpa hasta que reinicie la aplicación. Cuando la reinicie, SageMaker Canvas reinicia automáticamente la compilación. Las compilaciones estándar continúan incluso si cierra sesión.

Conclusión

La introducción de la compatibilidad con AutoML a escala de petabytes en SageMaker Canvas marca un hito importante en la democratización del aprendizaje automático. Al combinar el poder de la IA generativa, AutoML y la escalabilidad de EMR Serverless, estamos capacitando a organizaciones de todos los tamaños para que descubran información y generen valor comercial incluso a partir de los conjuntos de datos más grandes y complejos.

Los beneficios del aprendizaje automático ya no se limitan al ámbito de los expertos altamente especializados. SageMaker Canvas está revolucionando la forma en que las empresas abordan los datos y la inteligencia artificial, poniendo el poder del análisis predictivo y la toma de decisiones basada en datos en manos de todos. Explore hoy el futuro del aprendizaje automático sin código con SageMaker Canvas.


Acerca de los autores

Bret Pontillo es arquitecto de soluciones sénior en AWS. Trabaja en estrecha colaboración con clientes empresariales que crean lagos de datos y aplicaciones analíticas en la plataforma AWS. En su tiempo libre, a Bret le gusta viajar, mirar deportes y probar nuevos restaurantes.

Polaris Jhandi Es arquitecto de aplicaciones en la nube en AWS Professional Services. Tiene experiencia en inteligencia artificial, aprendizaje automático y big data. Actualmente, trabaja con clientes para migrar sus aplicaciones de mainframe heredadas a la nube.

Peter Chung es un arquitecto de soluciones que atiende a clientes empresariales en AWS. Le encanta ayudar a los clientes a usar la tecnología para resolver problemas comerciales sobre diversos temas, como la reducción de costos y el aprovechamiento de la inteligencia artificial. Escribió un libro sobre AWS FinOps y disfruta de la lectura y la creación de soluciones.