Visualize Comprehend Wordcloud.jpg

Buscar información en un repositorio de documentos de texto de formato libre puede ser como encontrar una aguja en un pajar. Un enfoque tradicional podría ser utilizar el recuento de palabras u otro análisis básico para analizar documentos, pero con el poder de la inteligencia artificial de Amazon y las herramientas de aprendizaje automático (ML), podemos obtener una comprensión más profunda del contenido.

Amazon comprender es un servicio totalmente administrado que utiliza procesamiento de lenguaje natural (NLP) para extraer información sobre el contenido de los documentos. Amazon Comprehend desarrolla conocimientos reconociendo las entidades, frases clave, opiniones, temas y elementos personalizados de un documento. Amazon Comprehend puede crear nuevos conocimientos basados ​​en la comprensión de la estructura del documento y las relaciones entre entidades. Por ejemplo, con Amazon Comprehend, puede escanear un repositorio de documentos completo en busca de frases clave.

Amazon Comprehend permite que los expertos que no son expertos en aprendizaje automático realicen fácilmente tareas que normalmente requieren horas. Amazon Comprehend elimina gran parte del tiempo necesario para limpiar, crear y entrenar su propio modelo. Para crear modelos personalizados más profundos en PNL o cualquier otro dominio, Amazon SageMaker le permite crear, entrenar e implementar modelos en un flujo de trabajo de aprendizaje automático mucho más convencional si lo desea.

En esta publicación, utilizamos Amazon Comprehend y otros servicios de AWS para analizar y extraer nuevos conocimientos de un repositorio de documentos. Entonces, usamos Amazon QuickSight para generar una nube de palabras simple pero poderosa para detectar fácilmente temas o tendencias.

Descripción general de la solución

El siguiente diagrama ilustra la arquitectura de la solución.

Para comenzar, recopilamos los datos a analizar y los cargamos en un Servicio de almacenamiento simple de Amazon (Amazon S3) en una cuenta de AWS. En este ejemplo, utilizamos archivos con formato de texto. Luego, Amazon Comprehend analiza los datos. Amazon Comprehend crea una salida con formato JSON que debe transformarse y procesarse en un formato de base de datos utilizando Pegamento AWS. Verificamos los datos y extraemos tablas de datos formateadas específicas utilizando Atenea amazónica para un análisis QuickSight utilizando una nube de palabras. Para obtener más información sobre visualizaciones, consulte Visualización de datos en Amazon QuickSight.

Requisitos previos

Para este tutorial, debe tener los siguientes requisitos previos:

Cargar datos a un depósito S3

Cargue sus datos en un depósito S3. Para esta publicación, utilizamos texto con formato UTF-8 de la Constitución de los EE. UU. como archivo de entrada. Entonces estará listo para analizar los datos y crear visualizaciones.

Analizar datos con Amazon Comprehend

Hay muchos tipos de información basada en texto e imágenes que se pueden procesar con Amazon Comprehend. Además de los archivos de texto, puede utilizar Amazon Comprehend para clasificación y reconocimiento de entidades en un solo paso para aceptar archivos de imagen, archivos PDF y archivos de Microsoft Word como entrada, que no se tratan en esta publicación.

Para analizar sus datos, complete los siguientes pasos:

  1. En la consola de Amazon Comprehend, elija Empleos de Análisis en el panel de navegación.
  2. Elegir Crear trabajo de análisis.
  3. Introduzca un nombre para su trabajo.
  4. Para Tipo de análisiselegir Frases clave.
  5. Para Idiomaelegir Inglés.
  6. Para Ubicación de los datos de entradaespecifique la carpeta que creó como requisito previo.
  7. Para Ubicación de los datos de salidaespecifique la carpeta que creó como requisito previo.
  8. Elegir Crear un rol de IAM.
  9. Introduzca un sufijo para el nombre del rol.
  10. Elegir crear trabajo.

El trabajo se ejecutará y el estado se mostrará en la Empleos de Análisis página.

Espere a que se complete el trabajo de análisis. Amazon Comprehend creará un archivo y lo colocará en la carpeta de datos de salida que proporcionó. El archivo está en formato .gz o GZIP.

Este archivo debe descargarse y convertirse a un formato no comprimido. Puede descargar un objeto desde la carpeta de datos o el depósito de S3 mediante la consola de Amazon S3.

  1. En la consola de Amazon S3, seleccione el objeto y elija Descargar. Si desea descargar el objeto a una carpeta específica, elija Descargar sobre el Comportamiento menú.
  2. Después de descargar el archivo a su computadora local, abra el archivo comprimido y guárdelo como un archivo sin comprimir.

El archivo sin comprimir debe cargarse en la carpeta de salida antes de que el rastreador de AWS Glue pueda procesarlo. Para este ejemplo, cargamos el archivo sin comprimir en la misma carpeta de salida que usaremos en pasos posteriores.

  1. En la consola de Amazon S3, navegue hasta su depósito S3 y elija Subir.
  2. Elegir Agregar archivos.
  3. Elija los archivos sin comprimir de su computadora local.
  4. Elegir Subir.

Después de cargar el archivo, elimine el archivo comprimido original.

  1. En la consola de Amazon S3, seleccione el depósito y elija Borrar.
  2. Confirme el nombre del archivo para eliminarlo permanentemente ingresando el nombre del archivo en el cuadro de texto.
  3. Elegir Eliminar objetos.

Esto dejará un archivo restante en la carpeta de salida: el archivo sin comprimir.

Convierta datos JSON a formato de tabla con AWS Glue

En este paso, preparará la salida de Amazon Comprehend para utilizarla como entrada en Athena. La salida de Amazon Comprehend está en formato JSON. Puede utilizar AWS Glue para convertir JSON en una estructura de base de datos para que QuickSight finalmente lo lea.

  1. En la consola de AWS Glue, elija Rastreadores en el panel de navegación.
  2. Elegir Crear rastreador.
  3. Ingrese un nombre para su rastreador.
  4. Elegir Próximo.
  5. Para ¿Sus datos ya están asignados a las tablas de Glue?seleccionar Aún no.
  6. Agregue una fuente de datos.
  7. Para Ruta S3ingrese la ubicación de la carpeta de datos de salida de Amazon Comprehend.

Asegúrate de agregar el final / al nombre de la ruta. AWS Glue buscará en la ruta de la carpeta todos los archivos.

  1. Seleccionar Rastrear todas las subcarpetas.
  2. Elegir Agregar una fuente de datos S3.

  1. Crear un nuevo Gestión de acceso e identidad de AWS (IAM) función del rastreador.
  2. Introduzca un nombre para la función de IAM.
  3. Elegir Actualizar el rol de IAM elegido para asegurarse de que la nueva función esté asignada al rastreador.
  4. Elegir Próximo para ingresar la información de salida (base de datos).
  5. Elegir Agregar base de datos.
  6. Introduzca un nombre de base de datos.
  7. Elegir Próximo.
  8. Elegir Crear rastreador.
  9. Elegir Ejecutar rastreador para ejecutar el rastreador.

Puede monitorear el estado del rastreador en la consola de AWS Glue.

Utilice Athena para preparar tablas para QuickSight

Athena extraerá datos de las tablas de la base de datos que creó el rastreador AWS Glue para proporcionar un formato que QuickSight utilizará para crear la nube de palabras.

  1. En la consola Athena, elija editor de consultas en el panel de navegación.
  2. Para Fuente de datoselegir Catálogo de datos de AWS.
  3. Para Base de datoselija la base de datos que creó el rastreador.

Para crear una tabla compatible con QuickSight, los datos deben estar anidados de las matrices.

  1. El primer paso es crear una base de datos temporal con los datos relevantes de Amazon Comprehend:
CREATE TABLE temp AS
SELECT keyphrases, nested
FROM output
CROSS JOIN UNNEST(output.keyphrases) AS t (nested)

  1. La siguiente declaración se limita a frases de al menos tres palabras y grupos por frecuencia de las frases:
CREATE TABLE tableforquicksight AS
SELECT COUNT(*) AS count, nested.text
FROM temp
WHERE nested.Score > .9 AND 
 length(nested.text) - length(replace(nested.text, ' ', '')) + 1 > 2
GROUP BY nested.text
ORDER BY count desc

Utilice QuickSight para visualizar la salida

Finalmente, puede crear el resultado visual del análisis.

  1. En la consola QuickSight, elija Nuevo análisis.
  2. Elegir Nuevo conjunto de datos.
  3. Para Crear un conjunto de datoselegir De nuevas fuentes de datos.
  4. Elegir Atenea como fuente de datos.
  5. Introduzca un nombre para la fuente de datos y elija Crear fuente de datos.

  1. Elegir Visualizar.

Asegúrese de que QuickSight tenga acceso a los depósitos de S3 donde se almacenan las tablas de Athena.

  1. En la consola QuickSight, elija el icono de perfil de usuario y elija Administrar QuickSight.

  1. Elegir Seguridad y permisos.
  1. Busca la sección Acceso QuickSight a los servicios de AWS.

Al configurar el acceso a los servicios de AWS, QuickSight puede acceder a los datos de esos servicios. El acceso de usuarios y grupos se puede controlar a través de las opciones.

  1. Verifique que Amazon S3 tenga acceso.

Ahora puedes crear la nube de palabras.

  1. Elija la nube de palabras debajo Tipos visuales.
  2. Arrastra el texto a Agrupar por y contar hasta Tamaño.


Elija el menú de opciones (tres puntos) en la visualización para acceder a las opciones de edición. Por ejemplo, es posible que desee ocultar el término «otro» de la pantalla. También puede editar elementos como el título y el subtítulo de su imagen. Para descargar la nube de palabras como PDF, elija Descargar en la barra de herramientas de QuickSight.

Limpiar

Para evitar incurrir en cargos continuos, elimine todos los datos y procesos o recursos no utilizados proporcionados en su respectiva consola de servicio.

Conclusión

Amazon Comprehend utiliza PNL para extraer información sobre el contenido de los documentos. Desarrolla conocimientos reconociendo las entidades, frases clave, lenguaje, sentimientos y otros elementos comunes en un documento. Puede utilizar Amazon Comprehend para crear nuevos productos basándose en la comprensión de la estructura de los documentos. Por ejemplo, con Amazon Comprehend, puede escanear un repositorio de documentos completo en busca de frases clave.

Esta publicación describió los pasos para crear una nube de palabras para visualizar un análisis de contenido de texto de Amazon Comprehend utilizando herramientas de AWS y QuickSight para visualizar los datos.

¡Mantengámonos en contacto a través de la sección de comentarios!


Sobre los autores

Kris Gedman es el líder de ventas minoristas y CPG del este de EE. UU. en Amazon Web Services. Cuando no está trabajando, le gusta pasar tiempo con sus amigos y familiares, especialmente los veranos en Cape Cod. Kris es un guerrero ninja temporalmente retirado, pero por ahora le encanta mirar y entrenar a sus dos hijos.

Clark Le Favor es un arquitecto de soluciones líder en Amazon Web Services y brinda soporte a clientes empresariales en la región Este. Clark vive en Nueva Inglaterra y le gusta pasar tiempo diseñando recetas en la cocina.