amazona kendra es un servicio de búsqueda inteligente muy preciso y fácil de usar impulsado por aprendizaje automático (ML). Amazon Kendra ofrece un conjunto de conectores de fuentes de datos para simplificar el proceso de ingesta e indexación de su contenido, dondequiera que resida.
Los datos valiosos de las organizaciones se almacenan en repositorios tanto estructurados como no estructurados. Una solución de búsqueda empresarial debería poder brindarle una experiencia totalmente administrada y simplificar el proceso de indexación de su contenido desde una variedad de fuentes de datos en la empresa.
Uno de esos repositorios de datos no estructurados son los sitios web internos y externos. Es posible que sea necesario rastrear los sitios para crear fuentes de noticias, analizar el uso del lenguaje o crear robots para responder preguntas basadas en los datos del sitio web.
Nos complace anunciar que ahora puede utilizar el nuevo rastreador web Amazon Kendra para buscar respuestas a partir de contenido almacenado en sitios web internos y externos o crear chatbots. En esta publicación, mostramos cómo indexar información almacenada en sitios web y utilizar la búsqueda inteligente en Amazon Kendra para buscar respuestas en el contenido almacenado en sitios web internos y externos. Además, la búsqueda inteligente basada en ML puede obtener respuestas precisas a sus preguntas a partir de documentos no estructurados con contenido narrativo en lenguaje natural, para los cuales la búsqueda de palabras clave no es muy efectiva.
Web Crawler ofrece las siguientes características nuevas:
- Compatibilidad con autenticación básica, NTLM/Kerberos, formulario y SAML
- La capacidad de especificar 100 URL iniciales y almacenar la configuración de conexión en Servicio de almacenamiento simple de Amazon (Amazon S3)
- Soporte para un proxy web e Internet con la capacidad de proporcionar credenciales de proxy
- Soporte para rastrear contenido dinámico, como un sitio web que contiene JavaScript
- Funciones de mapeo de campos y filtrado de expresiones regulares
Descripción general de la solución
Con Amazon Kendra, puede configurar múltiples fuentes de datos para proporcionar un lugar central para buscar en su repositorio de documentos. Para nuestra solución, demostramos cómo indexar un sitio web rastreado utilizando Amazon Kendra Web Crawler. La solución consta de los siguientes pasos:
- Elija un mecanismo de autenticación para el sitio web (si es necesario) y almacene los detalles en Administrador de secretos de AWS.
- Cree un índice de Amazon Kendra.
- Cree una fuente de datos de Web Crawler V2 a través de la consola de Amazon Kendra.
- Ejecute una consulta de muestra para probar la solución.
Requisitos previos
Para probar Amazon Kendra Web Crawler, necesita lo siguiente:
Recopilar detalles de autenticación
Para sitios web protegidos y seguros, se admiten los siguientes tipos y estándares de autenticación:
- Básico
- NTLM/Kerberos
- Autenticación de formulario
- SAML
Necesita la información de autenticación cuando configura la fuente de datos.
Para la autenticación básica o NTLM, debe proporcionar su secreto, nombre de usuario y contraseña de Secrets Manager.
La autenticación de formulario y SAML requiere información adicional, como se muestra en la siguiente captura de pantalla. Algunos de los campos como Usuario botón de nombre XPath son opcionales y dependerán de si el sitio que estás rastreando utiliza un botón después de ingresar el nombre de usuario. También tenga en cuenta que necesitará saber cómo determinar el XPath del campo de nombre de usuario y contraseña y de los botones de envío.
Crear un índice de Amazon Kendra
Para crear un índice de Amazon Kendra, complete los siguientes pasos:
- En la consola de Amazon Kendra, elija Crear un índice.
- Para Nombre del índiceintroduzca un nombre para el índice (por ejemplo, Web Crawler).
- Introduzca una descripción opcional.
- Para Nombre de rolingrese un nombre de función de IAM.
- Configure etiquetas y ajustes de cifrado opcionales.
- Elegir Próximo.
- En el Configurar el control de acceso de usuarios sección, deje la configuración en sus valores predeterminados y elija Próximo.
- Para Ediciones de aprovisionamientoseleccionar Edición para desarrolladores y elige Próximo.
- En la página de revisión, elija Crear.
Esto crea y propaga la función de IAM y luego crea el índice de Amazon Kendra, lo que puede tardar hasta 30 minutos.
Cree una fuente de datos del rastreador web Amazon Kendra
Complete los siguientes pasos para crear su fuente de datos:
- En la consola de Amazon Kendra, elija Fuentes de datos en el panel de navegación.
- Localice el Conector WebCrawler V2.0 mosaico y elegir Agregar conector.
- Para Nombre de fuente de datosingrese un nombre (por ejemplo, crawl-fda).
- Introduzca una descripción opcional.
- Elegir Próximo.
- En el Fuente sección, seleccione URL de origen e ingrese una URL. Para esta publicación utilizamos https://www.fda.gov/ como ejemplo de URL de origen.
- En el Autenticación sección, elija la autenticación adecuada según el sitio que desea rastrear. Para esta publicación, seleccionamos Sin autenticacion porque es un sitio público y no necesita autenticación.
- En el proxy web sección, puede especificar un secreto de Secrets Manager (si es necesario).
- Elegir Crear y agregar un nuevo secreto.
- Ingrese los detalles de autenticación que recopiló anteriormente.
- Elegir Ahorrar.
- En el Rol de IAM sección, elija Crear un nuevo rol e introduzca un nombre (por ejemplo,
AmazonKendra-Web Crawler-datasource-role). - Elegir Próximo.
- En el Alcance de sincronización sección, configure sus ajustes de sincronización según el sitio que está rastreando. Para esta publicación, dejamos todas las configuraciones predeterminadas.
- Para Modo de sincronización, elija cómo desea actualizar su índice. Para esta publicación, seleccionamos Sincronización completa.
- Para Programación de ejecución de sincronizaciónelegir Ejecutar bajo demanda.
- Elegir Próximo.
- Opcionalmente, puede configurar asignaciones de campos. Para esta publicación, mantenemos los valores predeterminados por ahora.
La asignación de campos es un ejercicio útil en el que puede sustituir nombres de campos por valores que sean fáciles de usar y que se ajusten al vocabulario de su organización.
- Elegir Próximo.
- Elegir Agregar fuente de datos.
- Para sincronizar la fuente de datos, elija Sincronizar ahora en la página de detalles de la fuente de datos.
- Espere a que se complete la sincronización.
Ejemplo de un sitio web autenticado
Si desea rastrear un sitio que tiene autenticación, en el Autenticación sección de los pasos anteriores, debe especificar los detalles de autenticación. El siguiente es un ejemplo si seleccionó Autenticación de formulario.
- En el Fuente sección, seleccione URL de origen e ingrese una URL. Para este ejemplo, utilizamos https://accounts.autodesk.com.
- En el Autenticación sección, seleccione Autenticación de formulario.
- En el proxy web , especifique su secreto de Secrets Manager. Esto es necesario para cualquier opción que no sea Sin autenticacion.
- Elegir Crear y agregar un nuevo secreto.
- Ingrese los detalles de autenticación que recopiló anteriormente.
- Elegir Ahorrar.
Prueba la solución
Ahora que ha ingerido el contenido del sitio en su índice de Amazon Kendra, puede probar algunas consultas.
- Ve a tu índice y elige Buscar contenido indexado.
- Ingrese una consulta de búsqueda de muestra y pruebe los resultados de su búsqueda (su consulta variará según el contenido del sitio que rastreó y la consulta ingresada).
¡Felicidades! Ha utilizado con éxito Amazon Kendra para mostrar respuestas e información basada en el contenido indexado del sitio que rastreó.
Limpiar
Para evitar incurrir en costos futuros, limpie los recursos que creó como parte de esta solución. Si creó un nuevo índice de Amazon Kendra mientras probaba esta solución, elimínelo. Si solo agregó una nueva fuente de datos utilizando Amazon Kendra Web Crawler V2, elimine esa fuente de datos.
Conclusión
Con el nuevo Amazon Kendra Web Crawler V2, las organizaciones pueden rastrear cualquier sitio web que sea público o esté detrás de autenticación y utilizarlo para búsquedas inteligentes impulsadas por Amazon Kendra.
Para conocer estas posibilidades y más, consulte la Guía para desarrolladores de Amazon Kendra. Para obtener más información sobre cómo puede crear, modificar o eliminar metadatos y contenido al incorporar sus datos, consulte Enriqueciendo sus documentos durante la ingesta y Enriquezca su contenido y metadatos para mejorar su experiencia de búsqueda con enriquecimiento de documentos personalizado en Amazon Kendra.
Sobre los autores
Jiten Dedhia es un Arquitecto Sr. de Soluciones con más de 20 años de experiencia en la industria del software. Ha trabajado con clientes de servicios financieros globales, brindándoles asesoramiento sobre la modernización mediante el uso de servicios proporcionados por AWS.
Gunwant Walbe es ingeniero de desarrollo de software en Amazon Web Services. Es un ávido aprendiz y dispuesto a adoptar nuevas tecnologías. Desarrolla aplicaciones empresariales complejas y Java es su lenguaje principal de elección.