Construyendo agentes de voz inteligentes de IA con Pipecat y Amazon Bedrock – Parte 2

Voice AI está cambiando la forma en que usamos la tecnología, lo que permite conversaciones más naturales e intuitivas. Mientras tanto, los agentes avanzados de IA ahora pueden comprender preguntas complejas y actuar de manera autónoma en nuestro nombre.

En Parte 1 De esta serie, aprendiste cómo puedes usar la combinación de Roca madre de Amazon y Pipecatun marco de código abierto para agentes de IA conversacionales de voz y multimodal para construir aplicaciones con IA conversacional similar a la humana. Aprendió sobre los casos de uso comunes de los agentes de voz y el enfoque de los modelos en cascada, donde orquesta varios componentes para construir su agente de IA de voz.

En esta publicación (Parte 2), explora cómo usar el modelo de base de voz a voz, Amazon Nova Sonicy los beneficios de usar un modelo unificado.

Arquitectura: Uso de Amazon Nova Sonic Sede-to-Speech

Amazon Nova Sonic es un modelo de base de voz a voz que ofrece conversaciones de voz en tiempo real y humanos con el rendimiento de los precios líderes en la industria y la baja latencia. Si bien el enfoque de modelos en cascada descrito en la Parte 1 es flexible y modular, requiere la orquestación del reconocimiento automático de voz (ASR), el procesamiento del lenguaje natural (NLU) y los modelos de texto a voz (TTS). Para los casos de uso conversacional, esto podría introducir la latencia y dar como resultado la pérdida de tono y prosodia. Nova Sonic combina estos componentes en un modelo unificado que procesa el audio en tiempo real con un solo pase hacia adelante, reduciendo la latencia al tiempo que racionaliza el desarrollo.

Al unificar estas capacidades, el modelo puede ajustar dinámicamente las respuestas de voz en función de las características acústicas y el contexto de conversación de la entrada, creando un diálogo más fluido y contextualmente apropiado. El sistema reconoce las sutilezas conversacionales, como pausas naturales, dudas y señales de toma de turnos, lo que le permite responder en momentos apropiados y administrar sin problemas durante la conversación. Amazon Nova Sonic también admite el uso de herramientas y el trapo de agente con Bases de conocimiento de Amazon Bedrock permitiendo que sus agentes de voz recuperen información. Consulte la siguiente figura para comprender el flujo de extremo a extremo.

La elección entre los dos enfoques depende de su caso de uso. Si bien las capacidades de Amazon Nova Sonic son de vanguardia, el enfoque de modelos en cascada descrito en la Parte 1 podría ser adecuado si necesita flexibilidad o modularidad adicionales para casos de uso avanzados.

Colaboración de AWS con Pipecat

Para lograr una integración perfecta, AWS colaboró con el equipo de PipeCat para admitir Amazon Nova Sonic en la versión V0.0.67, lo que hace que sea sencillo integrar las capacidades del habla de última generación en sus aplicaciones.

Kwindla Hultman KramerDirector ejecutivo de Diario.co y el creador de Pipecat, comparte su perspectiva sobre esta colaboración:

“El nuevo modelo de voz a voz de Amazon Nova sonic es un salto hacia adelante para la voz de voz en tiempo real. La API de transmisión bidireccional, las voces de sonido natural y las capacidades robustas de llamas de herramientas abren nuevas posibilidades emocionantes para los desarrolladores. La integración de Nova Sonic con PipeCat significa que podemos construir agentes conversacionales que no solo entienden y respondan en el tiempo real, sino que también pueden tomar acciones de forma natural; como un programación de los informes de la naturaleza. Este es el tipo de tecnología que realmente transforma la forma en que las personas interactúan con el software, haciendo interfaces de voz más rápidas, más humanas y realmente útiles en los flujos de trabajo cotidianos “.

“Mirando hacia el futuro, estamos encantados de colaborar con AWS en una hoja de ruta que ayuda a los clientes a reinventar sus centros de contacto con integración a Amazon Connect y aprovechar el poder de los flujos de trabajo de múltiples agentes a través del marco de agente de cadenas a través de un marco de agente en el tiempo real, las organizaciones de los trabajos de los agentes de los sophistications más inteligentes, eficientes y personalizados.

Comenzando con Amazon Nova Sonic y Pipecat

Para guiar su implementación, proporcionamos un ejemplo completo de código que demuestre la funcionalidad básica. Este ejemplo muestra cómo construir un agente de IA de voz completo con Amazon Nova Sonic y Pipecat.

Requisitos previos

Antes de usar los ejemplos de código proporcionados con Amazon Nova Sonic, asegúrese de tener lo siguiente:

Pasos de implementación

Después de completar los requisitos previos, puede comenzar a configurar su agente de voz de muestra:

  1. Clon el repositorio:
git clone https://github.com/aws-samples/build-intelligent-ai-voice-agents-with-pipecat-and-amazon-bedrock
cd build-intelligent-ai-voice-agents-with-pipecat-and-amazon-bedrock/part-2

  1. Configurar un entorno virtual:
cd server
python3 -m venv
venv source venv/bin/activate # On Windows: venv\Scripts\activate
pip install -r requirements.txt

  1. Crear un .env Archivo con sus credenciales:
DAILY_API_KEY=your_daily_api_key
AWS_ACCESS_KEY_ID=your_aws_access_key_id
AWS_SECRET_ACCESS_KEY=your_aws_secret_access_key
AWS_REGION=your_aws_region

  1. Inicie el servidor:
  1. Conectarse con un navegador en http://localhost:7860 y otorgar acceso al micrófono.
  2. Comience la conversación con tu agente de voz de IA.

Personalice su voz de AI Agent

Para personalizar su agente de IA de voz, comience por:

  1. Modificador bot.py Para cambiar la lógica de conversación.
  2. Ajustar la selección del modelo en bot.py para sus necesidades de latencia y calidad.

Para obtener más información, vea el Readme de nuestra muestra de código en GitHub.

Limpiar

Las instrucciones anteriores son para configurar la aplicación en su entorno local. La aplicación local utilizará los servicios de AWS y las credenciales de IAM y API. Para la seguridad y para evitar costos inesperados, cuando haya terminado, elimine estas credenciales para que ya no puedan acceder.

Amazon Nova Sonic y Pipecat en acción

La demostración muestra un escenario para un asistente de salud inteligente. La demostración fue presentada en la nota clave en AWS Summit Sydney 2025 por Rada Stanic, tecnóloga jefe y Melanie Li, arquitecto de soluciones especialistas senior – AI generativa.

La demostración muestra un agente de voz de datos divertidos simples en un entorno local que usa Smallwebrtctransport. Mientras el usuario habla, el agente de voz proporciona transcripción en tiempo real como se muestra en el terminal.

Mejorar las capacidades de agente con los agentes de hilos

Una forma práctica de aumentar la capacidad y la comprensión de los agentes es implementar una llamada de herramienta general que delegue la selección de herramientas a un agente externo como un Agente de hilos. El agente de hilos delegados puede razonar o pensar en su consulta compleja, realizar tareas de varios pasos con llamadas de herramientas y devolver una respuesta resumida.

Para ilustrar, revisemos un ejemplo simple. Si el usuario hace una pregunta como: “¿Cómo es el clima cerca del acuario de Seattle?? ”, El agente de voz puede delegar a un agente de hilos a través de una llamada de herramienta general como handle_query.

El agente de hilos manejará la consulta y pensará en la tarea, por ejemplo:

<thinking>I need to get the weather information for the Seattle Aquarium. To do this, I need the latitude and longitude of the Seattle Aquarium. I will first use the 'search_places' tool to find the coordinates of the Seattle Aquarium.</thinking> 

El agente de hilos ejecutará el search_places Llamada de herramienta, un posterior get_weather Llamada de herramienta y devolver una respuesta al agente principal como parte del handle_query Llamada de herramienta. Esto también se conoce como el Agente como herramientas patrón.

Para obtener más información, vea el ejemplo en nuestro taller práctico.

Conclusión

Construir agentes de voz inteligentes de IA es más accesible que nunca a través de la combinación de marcos de código abierto como Pipecaty potentes modelos de base en Amazon Bedrock.

En esta serie, aprendió sobre dos enfoques comunes para construir agentes de voz de IA. En la Parte 1, aprendió sobre el enfoque de modelos en cascada; Bucear en cada componente de un sistema de IA conversacional. En la Parte 2, aprendió cómo usar Amazon Nova Sonic, un modelo de base de voz a voz, puede simplificar la implementación y unificar estos componentes en una sola arquitectura de modelo. Mirando hacia el futuro, estén atentos para desarrollos emocionantes en modelos de fundaciones multimodales, incluidos los próximos modelos de Nova a Any Any Any An Any, estas innovaciones mejorarán continuamente sus aplicaciones de IA de voz.

Recursos

Para obtener más información sobre los agentes de IA de voz, consulte los siguientes recursos:

Para comenzar con su propio proyecto de IA de voz, comuníquese con su equipo de cuenta de AWS para explorar un compromiso con AWS Generation AI Innovation Center (Gaiic).


Sobre los autores

Adithya Suresh Es un arquitecto de aprendizaje profundo en el Centro de Innovación AI AI AWS con sede en Sydney, donde colabora directamente con los clientes empresariales para diseñar y escalar soluciones de IA generativas transformadoras para desafíos comerciales complejos. Aprovecha los servicios de IA generativos de AWS para construir sistemas de IA a medida que generen un valor comercial medible en diversas industrias.

Daniel Wirjo es un arquitecto de soluciones en AWS, con enfoque en las nuevas empresas de IA y SaaS. Como antiguo CTO de inicio, le gusta colaborar con los fundadores y líderes de ingeniería para impulsar el crecimiento y la innovación en AWS. Fuera del trabajo, Daniel disfruta caminar con un café en la mano, apreciar la naturaleza y aprender nuevas ideas.

Karan Singh es un especialista generativo de IA en AWS, donde trabaja con los modelos de fundación de terceros de primer nivel y los proveedores de marcos de agente para desarrollar y ejecutar estrategias conjuntas de Go-to-Market, lo que permite a los clientes desplegar y escalar de manera efectiva soluciones para resolver desafíos de IA generativos empresariales.

Melanie Li, PhD Es un arquitecto senior de soluciones especialistas en IA Generation AI en AWS con sede en Sydney, Australia, donde su enfoque es trabajar con los clientes para construir soluciones que aprovechen las herramientas de aprendizaje automático y AI de última generación. Ella ha participado activamente en múltiples iniciativas generativas de IA en APJ, aprovechando el poder de los modelos de idiomas grandes (LLM). Antes de unirse a AWS, el Dr. Li tenía roles de ciencia de datos en las industrias financieras y minoristas.

OSMAN IPEK es un arquitecto de soluciones experimentadas en el equipo artificial de inteligencia general de Amazon, especializado en modelos de la Fundación Amazon Nova. Con más de 12 años de experiencia en software y aprendizaje automático, ha impulsado innovadoras experiencias de productos Alexa que llegan a millones de usuarios. Su experiencia abarca la voz de voz de voz, el procesamiento del lenguaje natural, los modelos de idiomas grandes y los MLOP, con pasión por aprovechar la IA para crear productos innovadores.

Xuefeng liu Lidera un equipo científico en el Centro de Innovación AI AI AWS en las regiones de Asia Pacífico. Su equipo se asocia con clientes de AWS en proyectos generativos de IA, con el objetivo de acelerar la adopción de la IA generativa por parte de los clientes.