NVIDIA lanza PersonaPlex-7B-v1: un modelo de voz a voz en tiempo real diseñado para conversaciones naturales y dúplex completo

Los investigadores de NVIDIA lanzaron PersonaPlex-7B-v1, un modelo conversacional de voz a voz completo y dúplex que apunta a interacciones de voz naturales con un control preciso de la persona.

De ASR→LLM→TTS a un único modelo full duplex

Los asistentes de voz convencionales suelen funcionar en cascada. El reconocimiento automático de voz (ASR) convierte la voz en texto, un modelo de lenguaje genera una respuesta de texto y el texto a voz (TTS) vuelve a convertir en audio. Cada etapa agrega latencia y la canalización no puede manejar conversaciones superpuestas, interrupciones naturales o canales secundarios densos.

PersonaPlex reemplaza esta pila con un único modelo Transformer que realiza la transmisión de comprensión y generación de voz en una red. El modelo opera con audio continuo codificado con un códec neuronal y predice tokens de texto y tokens de audio de forma autorregresiva. El audio entrante del usuario se codifica de forma incremental, mientras que PersonaPlex genera simultáneamente su propio discurso, lo que permite la irrupción, las superposiciones, el cambio rápido de turnos y los canales secundarios contextuales.

PersonaPlex se ejecuta en una configuración de doble flujo. Una secuencia rastrea el audio del usuario, la otra secuencia rastrea la voz y el texto del agente. Ambas transmisiones comparten el mismo estado del modelo, por lo que el agente puede seguir escuchando mientras habla y puede ajustar su respuesta cuando el usuario interrumpe. Este diseño está directamente inspirado en la estructura full duplex Moshi de Kyutai.

Avisos híbridos, control por voz y control de roles

PersonaPlex utiliza dos indicaciones para definir la identidad conversacional.

El mensaje de voz es una secuencia de tokens de audio que codifica las características vocales, el estilo de hablar y la prosodia. El mensaje de texto describe la función, los antecedentes, la información de la organización y el contexto del escenario.

En conjunto, estos estímulos limitan tanto el contenido lingüístico como el comportamiento acústico del agente. Además de esto, un mensaje del sistema admite campos como nombre, nombre comercial, nombre del agente e información comercial, con un presupuesto de hasta 200 tokens.

Arquitectura, columna vertebral de helio y ruta de audio.

El modelo PersonaPlex tiene parámetros 7B y sigue la arquitectura de red Moshi. Un codificador de voz Mimi que combina capas ConvNet y Transformer convierte el audio de forma de onda en tokens discretos. Los transformadores temporales y de profundidad procesan múltiples canales que representan audio del usuario, texto del agente y audio del agente. Un decodificador de voz Mimi que también combina capas Transformer y ConvNet genera los tokens de audio de salida. El audio utiliza una frecuencia de muestreo de 24 kHz tanto para la entrada como para la salida.

PersonaPlex se basa en pesos Moshi y utiliza helio como columna vertebral del modelo de lenguaje subyacente. Helium proporciona comprensión semántica y permite la generalización fuera de los escenarios conversacionales supervisados. Esto es visible en el ejemplo de la “emergencia espacial”, donde una indicación sobre un fallo del núcleo del reactor en una misión a Marte conduce a un razonamiento técnico coherente con un tono emocional apropiado, aunque esta situación no forma parte de la distribución del entrenamiento.

Combinación de datos de entrenamiento, conversaciones reales y roles sintéticos.

La formación tiene 1 etapa y utiliza una combinación de diálogos reales y sintéticos.

Las conversaciones reales provienen de 7.303 llamadas, aproximadamente 1.217 horas, en el corpus de Fisher English. Estas conversaciones se vuelven a anotar con indicaciones utilizando GPT-OSS-120B. Las indicaciones están escritas en diferentes niveles de granularidad, desde simples sugerencias personales como “Disfrutas tener una buena conversación” hasta descripciones más largas que incluyen historia de vida, ubicación y preferencias. Este corpus proporciona canales de retorno naturales, disfluencias, pausas y patrones emocionales que son difíciles de obtener solo con TTS.

Los datos sintéticos cubren las funciones de asistente y servicio al cliente. El equipo de NVIDIA informa 39.322 conversaciones sintéticas de asistente, aproximadamente 410 horas, y 105.410 conversaciones sintéticas de servicio al cliente, aproximadamente 1.840 horas. Qwen3-32B y GPT-OSS-120B generan las transcripciones y Chatterbox TTS las convierte a voz. Para las interacciones con el asistente, el mensaje de texto se fija como “Eres un maestro sabio y amigable”. Responda preguntas o brinde consejos de una manera clara y atractiva. Para escenarios de servicio al cliente, las indicaciones codifican la organización, el tipo de función, el nombre del agente y las reglas comerciales estructuradas, como precios, horarios y restricciones.

Este diseño permite a PersonaPlex separar el comportamiento conversacional natural, que proviene principalmente de Fisher, de la adherencia a la tarea y el condicionamiento de roles, que provienen principalmente de escenarios sintéticos.

Evaluación en FullDuplexBench y ServiceDuplexBench

PersonaPlex se evalúa en FullDuplexBench, un punto de referencia para modelos de diálogo hablado full duplex, y en una nueva extensión llamada ServiceDuplexBench para escenarios de servicio al cliente.

FullDuplexBench mide la dinámica conversacional con Takeover Rate y métricas de latencia para tareas como tomar turnos sin problemas, manejo de interrupciones del usuario, manejo de pausas y backchanneling. GPT-4o actúa como juez de LLM para la calidad de la respuesta en las categorías de respuesta a preguntas. PersonaPlex alcanza un giro suave tomando TOR 0,908 con una latencia de 0,170 segundos y una interrupción del usuario TOR 0,950 con una latencia de 0,240 segundos. La similitud del hablante entre las indicaciones de voz y las salidas en el subconjunto de interrupción del usuario utiliza incrustaciones WavLM TDNN y alcanza 0,650.

PersonaPlex supera a muchos otros sistemas cerrados y de código abierto en dinámica conversacional, latencia de respuesta, latencia de interrupción y cumplimiento de tareas tanto en funciones de asistente como de servicio al cliente.

https://research.nvidia.com/labs/adlr/personaplex/

Conclusiones clave

PersonaPlex-7B-v1 es un modelo conversacional de voz a voz dúplex completo con parámetros 7B de NVIDIA, construido sobre la arquitectura Moshi con una columna vertebral de modelo de lenguaje Helium, código bajo MIT y pesos bajo la licencia de modelo abierto de NVIDIA. El modelo utiliza un transformador de flujo dual con codificador y decodificador de voz Mimi a 24 kHz, codifica audio continuo en tokens discretos y genera tokens de texto y audio al mismo tiempo, lo que permite irrupciones, superposiciones, giros rápidos y canales secundarios naturales. El control de la persona se maneja mediante indicaciones híbridas, una indicación de voz hecha de tokens de audio establece el timbre y el estilo, una indicación de texto y una indicación del sistema de hasta 200 tokens definen la función, el contexto empresarial y las restricciones, con incorporaciones de voz listas para usar, como las familias NATF y NATM. La capacitación utiliza una combinación de 7303 conversaciones de Fisher, aproximadamente 1217 horas, anotadas con GPT-OSS-120B, además de diálogos sintéticos de asistente y servicio al cliente, aproximadamente 410 horas y 1840 horas, generados con Qwen3-32B y GPT-OSS-120B y renderizados con Chatterbox TTS, que separa la naturalidad conversacional de la adherencia a la tarea. En FullDuplexBench y ServiceDuplexBench, PersonaPlex alcanza una tasa de toma de control de turnos fluida de 0,908 y una tasa de toma de control de interrupciones del usuario de 0,950 con una latencia inferior a un segundo y una mejor adherencia a las tareas.

Consulte los detalles técnicos, los pesos de los modelos y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.