Administrador de datos de Amazon SageMaker Proporciona una interfaz visual para optimizar y acelerar la preparación de datos para el aprendizaje automático (ML), que a menudo es la tarea más tediosa y que requiere más tiempo en los proyectos de ML. Lienzo de Amazon SageMaker es una interfaz visual de código bajo sin código para crear e implementar modelos de ML sin necesidad de escribir código. Con base en los comentarios de los clientes, hemos combinado las capacidades avanzadas de preparación de datos específicas de ML de SageMaker Data Wrangler dentro de SageMaker Canvas, lo que brinda a los usuarios un espacio de trabajo integral sin código para preparar datos y crear e implementar modelos de ML.
Al abstraer gran parte de la complejidad del flujo de trabajo de ML, SageMaker Canvas le permite preparar datos y luego crear o usar un modelo para generar información empresarial altamente precisa sin escribir código. Además, la preparación de datos en SageMaker Canvas ofrece muchas mejoras, como cargas de páginas hasta 10 veces más rápidas, una interfaz de lenguaje natural para la preparación de datos, la capacidad de ver el tamaño y la forma de los datos en cada paso y una mejora en la productividad. reemplazar y reordenar transformaciones para iterar sobre un flujo de datos. Por último, puede crear un modelo con un solo clic en la misma interfaz o crear un conjunto de datos de SageMaker Canvas para ajustar los modelos de base (FM).
Esta publicación demuestra cómo puede incorporar sus flujos existentes de SageMaker Data Wrangler (las instrucciones creadas al crear transformaciones de datos)De SageMaker Studio Classic a SageMaker CanvasProporcionamos un ejemplo de cómo mover archivos desde SageMaker Studio Classic a Servicio de almacenamiento simple de Amazon (Amazon S3) como paso intermedio antes de importarlos a SageMaker Canvas.
Descripción general de la solución
Los pasos de alto nivel son los siguientes:
- Abra una terminal en SageMaker Studio y copie los archivos de flujo a Amazon S3.
- Importe los archivos de flujo a SageMaker Canvas desde Amazon S3.
Prerrequisitos
En este ejemplo, usamos una carpeta llamada data-wrangler-classic-flows como carpeta de almacenamiento provisional para migrar archivos de flujo a Amazon S3. No es necesario crear una carpeta de migración, pero en este ejemplo, la carpeta se creó utilizando la parte del explorador del sistema de archivos de SageMaker Studio Classic. Después de crear la carpeta, tenga cuidado de mover y consolidar los archivos de flujo de SageMaker Data Wrangler relevantes. En la siguiente captura de pantalla, se han movido a la carpeta tres archivos de flujo necesarios para la migración. data-wrangler-classic-flows, como se ve en el panel izquierdo. Uno de estos archivos, titanic.flowse abre y es visible en el panel derecho.
Copiar archivos de flujo a Amazon S3
Para copiar los archivos de flujo a Amazon S3, complete los siguientes pasos:
- Para abrir una nueva terminal en SageMaker Studio Classic, en el Archivo menú, elegir Terminal.
- Con una nueva terminal abierta, puede proporcionar los siguientes comandos para copiar sus archivos de flujo a la ubicación de Amazon S3 que elija (reemplazando NNNNNNNNNNNN con su número de cuenta de AWS):
La siguiente captura de pantalla muestra un ejemplo de cómo debería verse el proceso de sincronización de Amazon S3. Recibirá una confirmación después de que se hayan cargado todos los archivos. Puede ajustar el código anterior para satisfacer sus necesidades únicas de ubicación de Amazon S3 y carpeta de entrada. Si no desea crear una carpeta, cuando ingrese a la terminal, simplemente omita el cambio de directorio (cd) y todos los archivos de flujo en todo el sistema de archivos de SageMaker Studio Classic se copiarán a Amazon S3, independientemente de la carpeta de origen.
Después de cargar los archivos en Amazon S3, puede validar que se hayan copiado mediante la consola de Amazon S3. En la siguiente captura de pantalla, vemos los tres archivos de flujo originales, ahora en un depósito de S3.
Importar archivos de flujo de Data Wrangler a SageMaker Canvas
Para importar los archivos de flujo a SageMaker Canvas, complete los siguientes pasos:
- En la consola de SageMaker Studio, seleccione Wrangler de datos en el panel de navegación.
- Elegir Flujos de datos de importación.
- Para Seleccione una fuente de datos, elegir Amazon S3.
- Para Punto final de entrada S3ingrese la ubicación de Amazon S3 que utilizó anteriormente para copiar archivos de SageMaker Studio a Amazon S3 y luego elija IrTambién puede navegar a la ubicación de Amazon S3 utilizando el navegador a continuación.
- Seleccione los archivos de flujo que desea importar y luego elija Importar.
Después de importar los archivos, la página SageMaker Data Wrangler se actualizará para mostrar los archivos recién importados, como se muestra en la siguiente captura de pantalla.
Utilice SageMaker Canvas para la transformación de datos con SageMaker Data Wrangler
Elija uno de los flujos (para este ejemplo, elegimos titanic.flow) para iniciar la transformación SageMaker Data Wrangler.
Ahora puede agregar análisis y transformaciones al flujo de datos mediante una interfaz visual (Acelere la preparación de datos para ML en Amazon SageMaker Canvas) o interfaz de lenguaje natural (Utilice el lenguaje natural para explorar y preparar datos con una nueva capacidad de Amazon SageMaker Canvas).
Cuando esté satisfecho con los datos, seleccione el signo más y elija Crear modeloo elige Exportar a exportar el conjunto de datos para construir y utilizar modelos ML.
Método de migración alternativo
Esta publicación proporcionó orientación sobre el uso de Amazon S3 para migrar archivos de flujo de SageMaker Data Wrangler desde un entorno de SageMaker Studio Classic. Fase 3: (opcional) Migrar datos de Studio Classic a Studio Proporciona un segundo método que utiliza su equipo local para transferir los archivos de flujo. Además, puede descargar archivos de flujo individuales desde el control de árbol de SageMaker Studio a su equipo local y luego importarlos manualmente en SageMaker Canvas. Elija el método que se adapte a sus necesidades y caso de uso.
Limpiar
Cuando hayas terminado, Cierre todas las aplicaciones SageMaker Data Wrangler que se estén ejecutando en SageMaker Studio Classic. Para ahorrar costos, también puede eliminar cualquier archivo de flujo del explorador de archivos de SageMaker Studio Classic, que es un Sistema de archivos elástico de Amazon (volumen de Amazon EFS). También puede eliminar cualquiera de los archivos intermedios en Amazon S3. Una vez que los archivos de flujo se importan a SageMaker Canvas, los archivos copiados a Amazon S3 ya no son necesarios.
Puede cerrar sesión en SageMaker Canvas cuando haya terminado y luego reiniciarlo cuando esté listo para usarlo nuevamente.
Conclusión
Migrar los flujos de SageMaker Data Wrangler existentes a SageMaker Canvas es un proceso sencillo que le permite utilizar las preparaciones de datos avanzadas que ya ha desarrollado y, al mismo tiempo, aprovechar el flujo de trabajo de aprendizaje automático de extremo a extremo, sin código y con poco código de SageMaker Canvas. Si sigue los pasos que se describen en esta publicación, puede realizar una transición sin problemas de sus artefactos de manipulación de datos al entorno de SageMaker Canvas, lo que agilizará sus proyectos de aprendizaje automático y permitirá que los analistas comerciales y los usuarios no técnicos creen e implementen modelos de manera más eficiente.
Empieza a explorar Lienzo de SageMaker ¡Hoy y experimente el poder de una plataforma unificada para la preparación de datos, la creación de modelos y la implementación!
Acerca de los autores
Charles Laughlin Charles es un especialista principal en inteligencia artificial en Amazon Web Services (AWS). Tiene una maestría en gestión de la cadena de suministro y un doctorado en ciencia de datos. Trabaja en el equipo de servicio de Amazon SageMaker, donde aporta sus investigaciones y la opinión del cliente para informar la hoja de ruta del servicio. En su trabajo, colabora a diario con diversos clientes de AWS para ayudarlos a transformar sus negocios con tecnologías de AWS de vanguardia y liderazgo intelectual.
Dan Sinnreich es gerente sénior de productos de Amazon SageMaker y se centra en la expansión de los servicios sin código o de bajo código. Se dedica a hacer que el aprendizaje automático y la inteligencia artificial generativa sean más accesibles y a aplicarlos para resolver problemas complejos. Fuera del trabajo, se lo puede encontrar jugando al hockey, buceando y leyendo ciencia ficción.
Huong Nguyen es gerente sénior de productos en AWS. Dirige la preparación de datos de ML para SageMaker Canvas y SageMaker Data Wrangler, y cuenta con 15 años de experiencia en la creación de productos centrados en el cliente y basados en datos.
Davide Gallitelli es un arquitecto de soluciones especializado en IA/ML en la región EMEA. Tiene su base en Bruselas y trabaja en estrecha colaboración con clientes de todo el Benelux. Ha sido desarrollador desde muy joven y comenzó a codificar a los 7 años. Comenzó a aprender IA/ML en sus últimos años de universidad y desde entonces se enamoró de ellos.Obtener confirmación