Construyendo agentes de voz inteligentes de IA con Pipecat y Amazon Bedrock – Parte 1

Voice Ai está transformando cómo interactuamos con la tecnología, haciendo que las interacciones conversacionales sean más naturales e intuitivas que nunca. Al mismo tiempo, los agentes de IA se están volviendo cada vez más sofisticados, capaces de comprender consultas complejas y tomar acciones autónomas en nuestro nombre. A medida que estas tendencias convergen, se ve el surgimiento de agentes inteligentes de voz de IA que pueden participar en un diálogo similar a humanos mientras realizan una amplia gama de tareas.

En esta serie de publicaciones, aprenderá cómo construir agentes de voz inteligentes de IA usando Pipecatun marco de código abierto para agentes de IA conversacionales de voz y voz multimodal, con modelos de base en Roca madre de Amazon. Incluye arquitecturas de referencia de alto nivel, mejores prácticas y muestras de código para guiar su implementación.

Enfoques para construir agentes de voz de IA

Hay dos enfoques comunes para construir agentes de IA conversacionales:

  • Uso de modelos en cascada: En esta publicación (Parte 1), aprenderá sobre el enfoque de modelos en cascada, sumergiéndose en los componentes individuales de un agente de IA conversacional. Con este enfoque, la entrada de voz pasa a través de una serie de componentes de arquitectura antes de que se envíe una respuesta de voz al usuario. Este enfoque también a veces se conoce como arquitectura de voz del modelo de tuberías o componentes.
  • Uso de modelos de base de voz a voz en una sola arquitectura: En la Parte 2, aprenderás cómo Amazon Nova Sonicun modelo de base unificado de voz a voz unificado puede permitir conversaciones de voz en tiempo real y de forma humana al combinar la comprensión del habla y la generación en una sola arquitectura.

Casos de uso comunes

Los agentes de voz de IA pueden manejar múltiples casos de uso, incluidos, entre otros::

  • Atención al cliente: Los agentes de voz de IA pueden manejar las consultas de los clientes 24/7, proporcionando respuestas instantáneas y problemas complejos de enrutamiento a los agentes humanos cuando sea necesario.
  • Llamadas de salida: Los agentes de IA pueden realizar campañas de divulgación personalizadas, programar citas o hacer un seguimiento de los clientes potenciales con conversación natural.
  • Asistentes virtuales: La IA de voz puede alimentar a los asistentes personales que ayudan a los usuarios a administrar tareas, responder preguntas.

Arquitectura: Uso de modelos en cascada para construir un agente de voz de IA

Para construir una aplicación de IA de voz de agente con el enfoque de modelos en cascada, debe orquestar múltiples componentes de arquitectura que involucren múltiples modelos de aprendizaje automático y fundamentos.

Figura 1: Descripción general de la arquitectura de un agente de IA de voz usando Pipecat

Estos componentes incluyen:

Transporte de Webrtc: Habilita la transmisión de audio en tiempo real entre los dispositivos del cliente y el servidor de aplicaciones.

Detección de actividad de voz (VAD): Detecta el habla usando Silero Vad con el inicio de voz configurable y las horas finales del habla, y las capacidades de supresión de ruido para eliminar el ruido de fondo y mejorar la calidad del audio.

Reconocimiento de voz automático (ASR): Usos Amazon Transcribe para la conversión precisa en tiempo real en voz baja.

Comprensión del lenguaje natural (NLU): Interpreta la intención del usuario usando inferencia optimizada para la latencia en roca madre con modelos como Amazon Nova Pro Opcionalmente habilitando caché de caché Para optimizar la velocidad y la eficiencia de rentabilidad en los casos de uso de generación aumentada (RAG) de recuperación.

Ejecución de herramientas e integración de API: Ejecuta acciones o recupera información para RAG integrando servicios de backend y fuentes de datos a través de flujos de pipecat y aprovechando el Uso de la herramienta Capacidades de los modelos de base.

Generación del lenguaje natural (NLG): Genera respuestas coherentes usando Amazon Nova Pro en Bedrock, ofreciendo el equilibrio adecuado de calidad y latencia.

Texto a voz (TTS): Convierte las respuestas de texto en discurso realista usando Amazon Polly con voces generativas.

Marco de orquestación: Pipecat orquesta estos componentes, ofreciendo un marco modular basado en Python para aplicaciones de agentes de IA multimodales en tiempo real.

Las mejores prácticas para construir agentes de voz de IA efectivos

El desarrollo de agentes de voz de IA receptivos requiere enfoque en la latencia y la eficiencia. Mientras que las mejores prácticas continúan surgiendo, considere las siguientes estrategias de implementación para lograr interacciones naturales de tipo humano:

Minimizar la latencia de conversación: Usar inferencia optimizada para la latencia para modelos de base (FMS) como Amazon Nova Pro Para mantener el flujo de conversación natural.

Seleccione modelos de base eficientes: Priorice los modelos de base más pequeños y más rápidos (FMS) que pueden ofrecer respuestas rápidas mientras mantienen la calidad.

Implementar el almacenamiento en caché del indicador: Utilizar caché de caché para optimizar la velocidad y la eficiencia de rentabilidad, especialmente en escenarios complejos que requieren recuperación de conocimiento.

Implementar rellenos de texto a voz (TTS): Use frases de relleno natural (como “Permítanme buscarlo para usted”) antes de las operaciones intensivas para mantener la participación del usuario mientras el sistema realiza llamadas de herramientas o llamadas de larga duración a sus modelos de base.

Construya una tubería de entrada de audio robusta: Integre componentes como el ruido para admitir la calidad clara de audio para obtener mejores resultados de reconocimiento de voz.

Comience simple e iterar: Comience con flujos de conversación básicos antes de progresar a sistemas de agente complejos que pueden manejar múltiples casos de uso.

Disponibilidad de la región: Las características de almacenamiento de baja latencia y avance solo pueden estar disponibles en ciertas regiones. Evalúe la compensación entre estas capacidades avanzadas y seleccione una región que esté geográficamente más cercana a sus usuarios finales.

Implementación de ejemplo: Cree su propio agente de voz de IA en minutos

Esta publicación proporciona un Aplicación de muestra en Github Eso demuestra los conceptos discutidos. Usa Pipecat y y su marco de gestión estatal acompañante, Pipecat fluye con Amazon Bedrock, junto con las capacidades de comunicación en tiempo real en la web (WEBRTC) de A diario Para crear un agente de voz de trabajo, puede probar en minutos.

Requisitos previos

Para configurar la aplicación de muestra, debe tener los siguientes requisitos previos:

  • Python 3.10+
  • Una cuenta de AWS con permisos de gestión de identidad y acceso apropiados (IAM) para Amazon Bedrock, Amazon Transcribe y Amazon Polly
  • Acceso a modelos de base en Amazon Bedrock
  • Acceso a una llave de API para diariamente
  • Navegador web moderno (como Google Chrome o Mozilla Firefox) con soporte de WebRTC

Pasos de implementación

Después de completar los requisitos previos, puede comenzar a configurar su agente de voz de muestra:

  1. Clon el repositorio:
    git clone https://github.com/aws-samples/build-intelligent-ai-voice-agents-with-pipecat-and-amazon-bedrock 
    cd build-intelligent-ai-voice-agents-with-pipecat-and-amazon-bedrock/part-1 
  2. Configurar el entorno:
    cd server
    python3 -m venv venv
    source venv/bin/activate  # Windows: venv\Scripts\activate
    pip install -r requirements.txt
  3. Configurar la tecla API en.env:
    DAILY_API_KEY=your_daily_api_key
    AWS_ACCESS_KEY_ID=your_aws_access_key_id
    AWS_SECRET_ACCESS_KEY=your_aws_secret_access_key
    AWS_REGION=your_aws_region
  4. Inicie el servidor:
    python server.py
  5. Conectarse a través del navegador en http://localhost:7860 y otorgar acceso al micrófono
  6. Comience la conversación con su agente de voz de IA

Personalización de su voz AI Agent

Para personalizar, puede comenzar por:

  • Modificador flow.py Para cambiar la lógica de conversación
  • Ajustar la selección del modelo en bot.py para sus necesidades de latencia y calidad

Para aprender más, ver documentación para los flujos de pipecat y revise el Readme de nuestra muestra de código en GitHub.

Limpieza

Las instrucciones anteriores son para configurar la aplicación en su entorno local. La aplicación local aprovechará los servicios de AWS y diariamente a través de las credenciales de AWS IAM y API. Para la seguridad y para evitar costos inesperados, cuando haya terminado, elimine estas credenciales para asegurarse de que ya no se puedan acceder.

Acelerado de implementaciones de IA de voz

Para acelerar las implementaciones de agentes de voz de IA, AWS Generation AI Innovation Center (Gaiic) Se asocia con los clientes para identificar casos de uso de alto valor y desarrollar soluciones de prueba de concepto (POC) que pueden pasar rápidamente a la producción.

Testimonio del cliente: endeudado

Endeudadoun fintech global que transforma la industria de la deuda del consumidor, colabora con AWS para desarrollar su prototipo de IA de voz.

“Creemos que los agentes de voz propulsados ​​por la IA representan una oportunidad fundamental para mejorar el toque humano en los servicios financieros, la participación del cliente. Al integrar la tecnología de voz habilitada para la AI en nuestras operaciones, nuestros objetivos son proporcionar a los clientes un acceso más rápido e intuitivo para que se adapte a sus necesidades, así como mejorar la calidad de su experiencia y el rendimiento de nuestras operaciones de los centros de contacto” ”

dice Mike ZhouDirector de Datos en Endebt.

Al colaborar con AWS y aprovechar el lecho de roca de Amazon, las organizaciones como Endebt pueden crear experiencias de IA de voz seguras y adaptativas que cumplan con los estándares regulatorios al tiempo que brindan un impacto real y centrado en los humanos incluso en las conversaciones financieras más desafiantes.

Conclusión

Construir agentes de voz inteligentes de IA ahora es más accesible que nunca a través de la combinación de marcos de código abierto como Pipecaty potentes modelos de base con Inferencia optimizada de latencia y caché de caché en Amazon Bedrock.

En esta publicación, aprendió sobre dos enfoques comunes sobre cómo construir agentes de voz de IA, profundizando en el enfoque de modelos en cascada y sus componentes clave. Estos componentes esenciales trabajan juntos para crear un sistema inteligente que pueda comprender, procesar y responder al habla humana de forma natural. Al aprovechar estos rápidos avances en la IA generativa, puede crear agentes de voz sofisticados y receptivos que ofrecen un valor real a sus usuarios y clientes.

Para comenzar con su propio proyecto de IA de voz, pruebe nuestro Muestra de código en Github o comuníquese con su equipo de cuentas de AWS para explorar un compromiso con AWS Generation AI Innovation Center (Gaiic).

También puede aprender sobre la construcción de agentes de voz de IA utilizando modelos de cimientos de voz a voz unificadas, Amazon Nova Sonic En la Parte 2.


Sobre los autores

Adithya Suresh Sirve como arquitecto de aprendizaje profundo en el Centro de Innovación AI Generation AI de AWS, donde se asocia con los equipos de tecnología y negocios para construir soluciones innovadoras de IA generativas que aborden los desafíos del mundo real.

Daniel Wirjo es un arquitecto de soluciones en AWS, centrado en las startups fintech y SaaS. Como antiguo CTO de inicio, le gusta colaborar con los fundadores y líderes de ingeniería para impulsar el crecimiento y la innovación en AWS. Fuera del trabajo, Daniel disfruta caminar con un café en la mano, apreciar la naturaleza y aprender nuevas ideas.

Karan Singh es un especialista generativo de IA en AWS, donde trabaja con los modelos de fundación de terceros de primer nivel y los proveedores de marcos de agente para desarrollar y ejecutar estrategias conjuntas de Go-to-Market, lo que permite a los clientes desplegar y escalar de manera efectiva soluciones para resolver desafíos de IA generativos empresariales.

Xuefeng liu Lidera un equipo científico en el Centro de Innovación AI AI AWS en las regiones de Asia Pacífico. Su equipo se asocia con clientes de AWS en proyectos generativos de IA, con el objetivo de acelerar la adopción de la IA generativa por parte de los clientes.