La prevalencia de las reuniones de negocios virtuales en el mundo empresarial, acelerada en gran medida por la pandemia de COVID-19, llegó para quedarse. Basado en encuesta realizado por American Express en 2023, se espera que el 41% de las reuniones de negocios se lleven a cabo en formato híbrido o virtual para 2024. Asistir a varias reuniones diarias y realizar un seguimiento de todos los temas en curso se vuelve cada vez más difícil de gestionar con el tiempo. Esto puede tener un impacto negativo de muchas maneras, desde retrasos en los plazos del proyecto hasta la pérdida de la confianza del cliente. Escribir resúmenes de reuniones es el remedio habitual para superar este desafío, pero perturba la concentración necesaria para escuchar las conversaciones en curso.
Una forma más eficiente de gestionar resúmenes de reuniones es crearlos automáticamente al final de una llamada mediante el uso de inteligencia artificial (IA) generativa y tecnologías de voz a texto. Esto permite a los asistentes concentrarse únicamente en la conversación, sabiendo que una transcripción estará disponible automáticamente al final de la llamada.
Esta publicación presenta una solución para generar automáticamente un resumen de la reunión a partir de una reunión virtual grabada (por ejemplo, usando timbre amazónico) con varios participantes. La grabación se transcribe a texto utilizando Amazon Transcribe y luego procesado usando Amazon SageMaker Contenedores de Hugging Face para generar el resumen de la reunión. Los contenedores Hugging Face albergan un modelo de lenguaje grande (LLM) del Abrazando la cara Hub.
Si prefiere generar resúmenes de grabaciones posteriores a la llamada con Roca Amazónica en lugar de Amazon SageMaker, consulte esto Solución de muestra de lecho de roca. Para obtener un Live Meeting Assistant generativo impulsado por IA que cree resúmenes posteriores a las llamadas, pero que también proporcione transcripciones en vivo, traducciones y asistencia contextual basada en la base de conocimientos de su propia empresa, consulte nuestro nuevo solución ML.
Descripción general de la solución
Toda la infraestructura de la solución se aprovisiona utilizando el Kit de desarrollo de la nube de AWS (AWS CDK), que es un marco de infraestructura como código (IaC) para definir e implementar mediante programación recursos de AWS. El marco proporciona recursos de manera segura y repetible, lo que permite una aceleración significativa del proceso de desarrollo.
Amazon Transcribe es un servicio totalmente administrado que ejecuta sin problemas cargas de trabajo de reconocimiento automático de voz (ASR) en la nube. El servicio permite la ingesta sencilla de datos de audio, la creación de transcripciones fáciles de leer y la mejora de la precisión a través de vocabularios personalizados. Amazon Transcribe nueva fundación ASR El modelo admite más de 100 variantes de idiomas. En esta publicación utilizamos el función de registro del hablanteque permite a Amazon Transcribe diferenciar entre un máximo de 10 hablantes únicos y etiquetar una conversación en consecuencia.
abrazando la cara es una plataforma de aprendizaje automático (ML) de código abierto que proporciona herramientas y recursos para el desarrollo de proyectos de IA. Su oferta clave es Hugging Face Hub, que alberga una amplia colección de más de 200.000 modelos previamente entrenados y 30.000 conjuntos de datos. La asociación de AWS con Hugging Face permite una integración perfecta a través de SageMaker con un conjunto de contenedores de aprendizaje profundo (DLC) para entrenamiento e inferencia, y estimadores y predictores de Hugging Face para el SDK de Python de SageMaker.
Construcciones CDK de IA generativa, una extensión de código abierto de AWS CDK, proporciona patrones multiservicio bien diseñados para crear de manera rápida y eficiente la infraestructura repetible necesaria para proyectos de IA generativa en AWS. Para esta publicación, ilustramos cómo simplifica la implementación de modelos básicos (FM) de Hugging Face o Inicio rápido de Amazon SageMaker con Inferencia en tiempo real de SageMaker, que proporciona puntos finales persistentes y totalmente administrados para alojar modelos de aprendizaje automático. Están diseñados para cargas de trabajo interactivas, en tiempo real y de baja latencia y proporcionan escalado automático para gestionar las fluctuaciones de carga. Para todos los idiomas admitidos por Amazon Transcribe, puede encontrar FM de Hugging Face que admiten resúmenes en los idiomas correspondientes.
El siguiente diagrama muestra el flujo de trabajo de resumen automatizado de reuniones.
El flujo de trabajo consta de los siguientes pasos:
- El usuario carga la grabación de la reunión como un archivo de audio o video al archivo del proyecto. Servicio de almacenamiento simple de Amazon (Amazon S3), en el
/recordingscarpeta. - Cada vez que se carga una nueva grabación en esta carpeta, se AWS Lambda Se invoca la función Transcribir e inicia un trabajo de Amazon Transcribe que convierte la grabación de la reunión en texto. Luego, las transcripciones se almacenan en el depósito S3 del proyecto en
/transcriptions/TranscribeOutput/. - Esto activa la función Inference Lambda, que preprocesa el archivo de transcripción en un formato adecuado para la inferencia de ML y lo almacena en el depósito S3 del proyecto bajo el prefijo.
/summaries/InvokeInput/processed-TranscribeOutput/e invoca un punto final de SageMaker. El punto final aloja el modelo Hugging Face que resume la transcripción procesada. El resumen se carga en el depósito S3 bajo el prefijo/summaries. Tenga en cuenta que la plantilla de solicitud utilizada en este ejemplo incluye una única instrucción; sin embargo, para requisitos más sofisticados, la plantilla se puede ampliar fácilmente para adaptar la solución a su propio caso de uso. - Este evento de S3 activa la función Notificación Lambda, que lleva el resumen a un nivel Servicio de notificación simple de Amazon (Amazon SNS) tema.
- Todos los suscriptores del tema de SNS (como los asistentes a la reunión) reciben el resumen en su bandeja de entrada de correo electrónico.
En esta publicación, implementamos Mistral 7B Instruct, un LLM disponible en Hugging Face Model Hub, en un punto final de SageMaker para realizar las tareas de resumen. Mistral 7B Instruct es desarrollado por Mistral AI. Está equipado con más de 7 mil millones de parámetros, lo que le permite procesar y generar texto según las instrucciones del usuario. Ha sido entrenado en un amplio corpus de datos de texto para comprender diversos contextos y matices del lenguaje. El modelo está diseñado para realizar tareas como responder preguntas, resumir información y crear contenido, entre otras, siguiendo indicaciones específicas dadas por los usuarios. Su eficacia se mide a través de métricas como perplejidad, precisión y puntuación F1, y está ajustado para responder a instrucciones con resultados de texto relevantes y coherentes.
Requisitos previos
Para seguir esta publicación, debe tener los siguientes requisitos previos:
Implementar la solución
Para implementar la solución en su propia cuenta de AWS, consulte la repositorio de GitHub para acceder al código fuente completo del proyecto AWS CDK en Python:
Si está implementando activos de AWS CDK por primera vez en su cuenta de AWS y en la región de AWS que especificó, primero debe ejecutar el comando bootstrap. Configura los recursos y permisos básicos de AWS necesarios para la implementación de AWS CDK. Formación en la nube de AWS pilas en un entorno determinado:
Finalmente, ejecute el siguiente comando para implementar la solución. Especifique la dirección de correo del destinatario del resumen en el SubscriberEmailAddress parámetro:
Prueba la solución
Hemos proporcionado algunos ejemplos de grabaciones de reuniones en el datos carpeta del repositorio del proyecto. Puede cargar la grabación test.mp4 en el depósito S3 del proyecto en el /recordings carpeta. El resumen se guardará en Amazon S3 y se enviará al suscriptor. La duración de un extremo a otro es de aproximadamente 2 minutos dada una entrada de aproximadamente 250 tokens.
La siguiente figura muestra la conversación de entrada y el resumen de salida.
Limitaciones
Esta solución tiene las siguientes limitaciones:
- El modelo proporciona completaciones de alta precisión para el idioma inglés. Puedes utilizar otros idiomas como español, francés o portugués, pero la calidad de las terminaciones puede degradarse. Puede encontrar otros modelos de Hugging Face que se adapten mejor a otros idiomas.
- El modelo utilizado en esta publicación está limitado por una longitud de contexto de aproximadamente 8000 tokens, lo que equivale aproximadamente a 6000 palabras. Si se requiere una longitud de contexto mayor, puede reemplazar el modelo haciendo referencia al nuevo ID del modelo en la construcción AWS CDK respectiva.
- Al igual que otros LLM, Mistral 7B Instruct puede tener alucinaciones, generando contenido que se desvía de la realidad fáctica o incluye información fabricada.
- El formato de las grabaciones debe ser .mp4, .mp3 o .wav.
Limpiar
Para eliminar los recursos implementados y dejar de incurrir en cargos, ejecute el siguiente comando:
Alternativamente, utilizar el Consola de administración de AWScomplete los siguientes pasos:
- En la consola de AWS CloudFormation, elija pilas en el panel de navegación.
- Seleccione la pila llamada Text-summarization-Infrastructure-stack y elija Borrar.
Conclusión
En esta publicación, propusimos un patrón de arquitectura para transformar automáticamente las grabaciones de sus reuniones en resúmenes de conversaciones interesantes. Este flujo de trabajo muestra cómo AWS Cloud y Hugging Face pueden ayudarlo a acelerar el desarrollo de su aplicación de IA generativa al orquestar una combinación de servicios de IA administrados, como Amazon Transcribe, y modelos de aprendizaje automático de origen externo de Hugging Face Hub, como los de Mistral AI.
Si desea obtener más información sobre cómo se pueden aplicar los resúmenes de conversaciones al entorno de un centro de contacto, puede implementar esta técnica en nuestro conjunto de soluciones para Análisis de llamadas en vivo y Análisis posteriores a la llamada.
Referencias
Publicación de lanzamiento de Mistral 7B, por Mistral AI
Nuestro equipo
Esta publicación fue creada por AWS Professional Services, un equipo global de expertos que puede ayudar a lograr los resultados comerciales deseados al utilizar la nube de AWS. Trabajamos junto con su equipo y el miembro elegido de AWS Partner Network (APN) para implementar sus iniciativas empresariales de computación en la nube. Nuestro equipo brinda asistencia a través de una colección de ofertas que lo ayudan a lograr resultados específicos relacionados con la adopción de la nube empresarial. También brindamos orientación enfocada a través de nuestras prácticas especializadas globales, que cubren una variedad de soluciones, tecnologías e industrias.
Sobre los autores
Gabriel Rodríguez García es ingeniero de aprendizaje automático en AWS Professional Services en Zurich. En su puesto actual, ha ayudado a los clientes a lograr sus objetivos comerciales en una variedad de casos de uso de ML, que van desde la configuración de canales de inferencia MLOps hasta el desarrollo de una aplicación de detección de fraude. Cuando no está trabajando, le gusta hacer actividades físicas, escuchar podcasts o leer libros.
Jahed Zaïdi es especialista en inteligencia artificial y aprendizaje automático en AWS Professional Services en París. Es un constructor y asesor confiable para empresas de todos los sectores, ayudando a las empresas a innovar más rápido y a mayor escala con tecnologías que van desde IA generativa hasta plataformas de aprendizaje automático escalables. Fuera del trabajo, encontrará a Jahed descubriendo nuevas ciudades y culturas y disfrutando de actividades al aire libre.
Mateusz Zaremba es arquitecto de DevOps en AWS Professional Services. Mateusz apoya a los clientes en la intersección del aprendizaje automático y la especialización en DevOps, ayudándolos a aportar valor de manera eficiente y segura. Más allá de la tecnología, es ingeniero aeroespacial y ávido marinero.
Kemeng Zhang Actualmente trabaja en AWS Professional Services en Zurich, Suiza, con especialización en AI/ML. Ha formado parte de múltiples proyectos de PNL, desde cambio de comportamiento en comunicación digital hasta detección de fraude. Aparte de eso, le interesa el diseño UX y los juegos de cartas.