Cómo diseñar un agente de voz totalmente streaming con presupuestos de latencia de extremo a extremo, ASR incremental, streaming LLM y TTS en tiempo real

En este tutorial, creamos un agente de transmisión de voz de extremo a extremo que refleja cómo funcionan los sistemas conversacionales modernos de baja latencia en tiempo real. Simulamos todo el proceso, desde la entrada de audio fragmentada y el reconocimiento de voz en streaming hasta el razonamiento incremental del modelo de lenguaje y la salida de texto a voz en streaming, mientras realizamos un seguimiento explícito de la latencia en cada etapa. Al trabajar con presupuestos de latencia estrictos y observar métricas como el tiempo hasta el primer token y el tiempo hasta el primer audio, nos centramos en las compensaciones prácticas de ingeniería que dan forma a las experiencias de usuario receptivas basadas en voz. Consulta los CÓDIGOS COMPLETOS aquí.

importar tiempo importar asyncio importar numpy como np de colecciones importar deque de clases de datos importar clase de datos de escribir importar Lista, AsyncIterator de enum importar Enum importar matplotlib.pyplot como plt @dataclass clase LatencyMetrics: audio_chunk_received: float = 0.0 asr_started: float = 0.0 asr_partial: float = 0.0 asr_complete: float = 0.0 llm_started: float = 0.0 llm_first_token: float = 0.0 llm_complete: float = 0.0 tts_started: float = 0.0 tts_first_chunk: float = 0.0 tts_complete: float = 0.0 def get_time_to_first_audio(self) -> float: devuelve self.tts_first_chunk – self.asr_complete si self.tts_first_chunk y self.asr_complete else 0.0 def get_total_latency(self) -> float: return self.tts_complete – self.audio_chunk_received if self.tts_complete else 0.0 @dataclass clase LatencyBudgets: asr_processing: float = 0.1 asr_finalization: float = 0.3 llm_first_token: float = 0.5 llm_token_generación: float = 0.02 tts_first_chunk: float = 0.2 tts_chunk_generación: float = 0.05 time_to_first_audio: float = 1.0 clase AgentState(Enum): ESCUCHANDO = “escuchando” PROCESSING_SPEECH = “procesando_voz” PENSANDO = “pensando” HABLANDO = “hablando” INTERRUMPIDO = “interrumpido”

Definimos las estructuras de datos centrales y las representaciones de estado que nos permiten rastrear la latencia en todo el proceso de voz. Formalizamos señales de sincronización para ASR, LLM y TTS para garantizar una medición consistente en todas las etapas. También establecemos una máquina de estado de agente clara que guía cómo el sistema realiza la transición durante un turno conversacional. Consulta los CÓDIGOS COMPLETOS aquí.

clase AudioInputStream: def __init__(self, sample_rate: int = 16000, chunk_duration_ms: int = 100): self.sample_rate = sample_rate self.chunk_duration_ms = chunk_duration_ms self.chunk_size = int(sample_rate * chunk_duration_ms / 1000) async def stream_audio(self, texto: cadena) -> AsyncIterator[np.ndarray]: caracteres_por_segundo = (150 * 5) / 60 duración_segundos = len(texto) / caracteres_por_segundo num_chunks = int(duración_segundos * 1000 / self.chunk_duration_ms) para _ en rango(num_chunks): fragmento = np.random.randn(self.chunk_size).astype(np.float32) * 0.1 await asyncio.sleep(self.chunk_duration_ms / 1000) fragmento de rendimiento

Simulamos la entrada de audio en tiempo real dividiendo la voz en fragmentos de duración fija que llegan de forma asincrónica. Modelamos velocidades de conversación y comportamiento de transmisión realistas para imitar la entrada de micrófono en vivo. Usamos esta transmisión como base para probar componentes posteriores sensibles a la latencia. Consulta los CÓDIGOS COMPLETOS aquí.

clase StreamingASR: def __init__(self, latency_budget: float = 0.1): self.latency_budget = latency_budget self.silence_threshold = 0.5 async def transcribe_stream( self, audio_stream: AsyncIterator[np.ndarray]ground_truth: str ) -> AsyncIterator[tuple[str, bool]]: palabras = ground_truth.split() palabras_transcritas = 0 duración_silencio = 0.0 fragment_count = 0 asíncrono para fragmentos en audio_stream: fragment_count += 1 await asyncio.sleep(self.latency_budget) if fragment_count % 3 == 0 y palabras_transcritas < len(palabras): palabras_transcritas += 1 rendimiento " ".join(palabras[:words_transcribed]), False potencia_audio = np.mean(np.abs(chunk)) duración_silencio = duración_silencio + 0.1 si potencia_audio < 0.05 else 0.0 si duración_silencio >= self.umbral_silencio: await asyncio.sleep(0.2) produce verdad_terreno, True devuelve verdad_terreno, Verdadero

Implementamos un módulo ASR de streaming que produce transcripciones parciales antes de emitir un resultado final. Progresivamente revelamos palabras para reflejar cómo funcionan los sistemas ASR modernos en tiempo real. También introducimos la finalización basada en silencio para aproximar la detección del final de la expresión. Consulta los CÓDIGOS COMPLETOS aquí.

clase StreamingLLM: def __init__(self, tiempo_para_primer_token: flotante = 0.3, tokens_por_segundo: flotante = 50): self.time_to_first_token = tiempo_para_primer_token self.tokens_per_segundo = tokens_por_segundo async def generate_response(self, rápido: str) -> AsyncIterator[str]: respuestas = { “hello”: “¡Hola! ¿Cómo puedo ayudarte hoy?”, “weather”: “El clima es soleado con una temperatura de 72 °F.”, “time”: “La hora actual son las 2:30 p. m.”, “default”: “Entiendo. Déjame ayudarte con eso”. } respuesta = respuestas[“default”]
para clave en respuestas: si clave en solicitud.inferior(): respuesta = respuestas[key]
break await asyncio.sleep(self.time_to_first_token) para palabra en respuesta.split(): producir palabra + ” ” await asyncio.sleep(1.0 / self.tokens_per_segundo) clase StreamingTTS: def __init__(self, time_to_first_chunk: float = 0.2, chars_per_segundo: float = 15): self.time_to_first_chunk = time_to_first_chunk self.chars_per_segundo = caracteres_por_segundo async def synthesize_stream(self, text_stream: AsyncIterator[str]) -> Asincrónico[np.ndarray]: first_chunk = True buffer = “” async para texto en text_stream: buffer += texto if len(buffer) >= 20 o first_chunk: if first_chunk: await asyncio.sleep(self.time_to_first_chunk) first_chunk = Duración falsa = len(buffer) / self.chars_per_segundo rendimiento np.random.randn(int(16000 * duración)).astype(np.float32) * 0.1 buffer = “” espera asyncio.sleep(duración * 0.5)

En este fragmento, modelamos un modelo de lenguaje de transmisión y un motor de transmisión de texto a voz trabajando juntos. Generamos respuestas token por token para capturar el comportamiento del tiempo hasta el primer token. Luego convertimos texto incremental en fragmentos de audio para simular la síntesis de voz temprana y continua. Consulta los CÓDIGOS COMPLETOS aquí.

clase StreamingVoiceAgent: def __init__(self, latency_budgets: LatencyBudgets): self.budgets = latency_budgets self.audio_stream = AudioInputStream() self.asr = StreamingASR(latency_budgets.asr_processing) self.llm = StreamingLLM( latency_budgets.llm_first_token, 1.0 / latency_budgets.llm_token_generación ) self.tts = StreamingTTS( latency_budgets.tts_first_chunk, 1.0 / latency_budgets.tts_chunk_generación ) self.state = AgentState.LISTENING self.metrics_history: Lista[LatencyMetrics] = []

async def Process_turn(self, user_input: str) -> LatencyMetrics: metrics = LatencyMetrics() start_time = time.time() metrics.audio_chunk_received = time.time() – start_time audio_gen = self.audio_stream.stream_audio(user_input) metrics.asr_started = time.time() – start_time asíncrono para texto, final en self.asr.transcribe_stream(audio_gen, user_input): si es final: metrics.asr_complete = time.time() – start_time transcripción = texto metrics.llm_started = time.time() – start_time respuesta = “” async para token en self.llm.generate_response(transcripción): si no metrics.llm_first_token: metrics.llm_first_token = time.time() – respuesta start_time += token metrics.llm_complete = time.time() – start_time metrics.tts_started = time.time() – start_time async def text_stream(): para palabra en respuesta.split(): produce palabra + ” ” async para _ en self.tts.synthesize_stream(text_stream()): si no metrics.tts_first_chunk: metrics.tts_first_chunk = time.time() – start_time metrics.tts_complete = time.time() – start_time self.metrics_history.append(metrics) devuelve métricas

Orquestamos el agente de voz completo conectando la entrada de audio, ASR, LLM y TTS en un único flujo asincrónico. Registramos marcas de tiempo precisas en cada transición para calcular métricas de latencia críticas. Tratamos cada turno de usuario como un experimento aislado para permitir un análisis sistemático del rendimiento. Consulta los CÓDIGOS COMPLETOS aquí.

async def run_demo(): presupuestos = LatencyBudgets( asr_processing=0.08, llm_first_token=0.3, llm_token_generación=0.02, tts_first_chunk=0.15, time_to_first_audio=0.8 ) agente = StreamingVoiceAgent(presupuestos) entradas = [
“Hello, how are you today?”,
“What’s the weather like?”,
“Can you tell me the time?”
]

para texto en entradas: await agent.process_turn(text) await asyncio.sleep(1) if __name__ == “__main__”: asyncio.run(run_demo())

Ejecutamos todo el sistema en múltiples turnos de conversación para observar la coherencia y variación de la latencia. Aplicamos presupuestos de latencia agresivos para estresar el proceso bajo restricciones realistas. Usamos estas ejecuciones para validar si el sistema cumple con los objetivos de capacidad de respuesta en todas las interacciones.

En conclusión, demostramos cómo se puede orquestar un agente de voz totalmente en streaming como un único canal asíncrono con límites de escenario claros y garantías de rendimiento mensurables. Demostramos que la combinación de ASR parcial, transmisión LLM a nivel de token y TTS de inicio temprano reduce la latencia percibida, incluso cuando el tiempo total de cálculo no es trivial. Este enfoque nos ayuda a razonar sistemáticamente sobre la toma de turnos, la capacidad de respuesta y las palancas de optimización, y proporciona una base sólida para extender el sistema hacia implementaciones del mundo real utilizando modelos de producción ASR, LLM y TTS.

Consulta los CÓDIGOS COMPLETOS aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Cómo diseñar un agente de voz totalmente streaming con presupuestos de latencia de extremo a extremo, ASR incremental, streaming LLM y TTS en tiempo real

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Herramienta de envíos de agentes Hermes Búsqueda de MCP: las evaluaciones antrópicas muestran una ganancia de precisión del 49% al 74% en Opus 4

Claude Opus 4.8 ya está disponible en AWS

Liquid AI lanza LFM2.5-8B-A1B: un modelo MoE en el dispositivo con 8,3 mil millones de parámetros activos y 1,5 mil millones en total

You missed

El creciente coste de encontrar el amor « Euro Weekly News

Stunna Girl rompe su silencio después de un reciente arresto y una foto policial viral

Los astronautas chinos Shenzhou 21 regresan a la Tierra después de estar brevemente ‘varados’ (vídeo)

Cómo se compara el coste de vida español con el de EE. UU.