En Nvidia GTC25, Gnani.ai Los expertos presentaron avances innovadores en la IA de voz, centrándose en el desarrollo y la implementación de modelos de base de voz a voz. Este enfoque innovador promete superar las limitaciones de las arquitecturas de IA de voz en cascada tradicionales, marcando el comienzo de una era de interacciones de voz perfecta, multilingüe y emocionalmente consciente.
Las limitaciones de las arquitecturas en cascada
Los agentes de voz que impulsan la arquitectura de vanguardia actuales implican una tubería de tres etapas: voz a texto (STT), modelos de idiomas grandes (LLM) y texto a voz (TTS). Si bien es efectiva, esta arquitectura en cascada sufre de inconvenientes significativos, principalmente propagación de latencia y error. Una arquitectura en cascada tiene múltiples bloques en la tubería, y cada bloque agregará su propia latencia. La latencia acumulada en estas etapas puede variar de 2.5 a 3 segundos, lo que lleva a una mala experiencia del usuario. Además, los errores introducidos en la etapa STT se propagan a través de la tubería, lo que agravan las inexactitudes. Esta arquitectura tradicional también pierde rasgos paralingüísticos críticos, como sentimiento, emoción y tono, lo que resulta en respuestas monótonas y emocionalmente planas.
Introducción de modelos de base de voz a voz
Para abordar estas limitaciones, Gnani.ai presenta un nuevo modelo de base de voz a voz. Este modelo procesa y genera directamente el audio, eliminando la necesidad de representaciones de texto intermedios. La innovación clave radica en capacitar a un codificador de audio masivo con 1,5 millones de horas de datos etiquetados en 14 idiomas, capturando matices de emoción, empatía y tonalidad. Este modelo emplea a un codificador XL anidado, requitido con datos integrales y una capa de proyector de audio de entrada para asignar las características de audio en integridades textuales. Para la transmisión en tiempo real, las funciones de audio y texto están entrelazadas, mientras que los casos de uso no corrientes utilizan una capa de combinación de combinación. La capa LLM, inicialmente basada en Llama 8B, se expandió para incluir 14 idiomas, lo que requiere la reconstrucción de tokenizadores. Un modelo de proyector de salida genera espectrogramas MEL, lo que permite la creación de voces hiperpersonalizadas.
Beneficios clave y obstáculos técnicos
El modelo de voz a voz ofrece varios beneficios significativos. En primer lugar, reduce significativamente la latencia, pasando de 2 segundos a aproximadamente 850-900 milisegundos para la primera salida de token. En segundo lugar, mejora la precisión al fusionar ASR con la capa LLM, mejorando el rendimiento, especialmente para discursos cortos y largos. En tercer lugar, el modelo logra la conciencia emocional capturando y modelando la tonalidad, el estrés y la tasa de habla. En cuarto lugar, permite un manejo mejorado de interrupción a través de la conciencia contextual, facilitando más interacciones naturales. Finalmente, el modelo está diseñado para manejar un audio de bajo ancho de banda de manera efectiva, lo cual es crucial para las redes de telefonía. La construcción de este modelo presentó varios desafíos, especialmente los requisitos de datos masivos. El equipo creó un sistema de origen público con 4 millones de usuarios para generar datos de conversación emocionalmente ricos. También aprovecharon modelos de base para la generación de datos sintéticos y se capacitaron en 13.5 millones de horas de datos disponibles públicamente. El modelo final comprende un modelo de parámetros de 9 mil millones, con 636 millones para la entrada de audio, 8 mil millones para la LLM y 300 millones para el sistema TTS.
El papel de Nvidia en el desarrollo
El desarrollo de este modelo dependía en gran medida de la pila Nvidia. NVIDIA NEMO se utilizó para entrenamiento de modelos de codificadores codificadores, y el curador NEMO facilitó la generación de datos de texto sintético. Nvidia EVA se empleó para generar pares de audio, combinando información patentada con datos sintéticos.
Casos de uso
Gnani.ai exhibió dos casos de uso principales: traducción del idioma en tiempo real y atención al cliente. La demostración de traducción de idiomas en tiempo real presentó un motor de IA que facilitó una conversación entre un agente de habla inglesa y un cliente de habla francesa. La demostración de atención al cliente destacó la capacidad del modelo para manejar conversaciones interlingües, interrupciones y matices emocionales.
Modelo de base de voz a voz
El modelo de base de voz a voz representa un salto significativo en la IA de voz. Al eliminar las limitaciones de las arquitecturas tradicionales, este modelo permite interacciones de voz más naturales, eficientes y emocionalmente conscientes. A medida que la tecnología continúa evolucionando, promete transformar varias industrias, desde el servicio al cliente hasta la comunicación global.
