En el ámbito de la interacción entre humanos y computadoras (HCI), el diálogo se destaca como la forma más natural de comunicación. La aparición de los modelos de lenguaje de voz (SLM) ha mejorado significativamente la IA conversacional basada en el habla, pero estos modelos siguen limitados a interacciones por turnos, lo que limita su aplicabilidad en escenarios en tiempo real. Esta brecha en la interacción en tiempo real presenta un desafío significativo, particularmente en situaciones que requieren retroalimentación inmediata y un flujo conversacional dinámico. La incapacidad de manejar interrupciones y mantener una interacción fluida ha impulsado a los investigadores a explorar el modelado dúplex completo (FDM) en modelos de lenguaje de voz interactivos (iSLM). Para abordar este desafío, la investigación presenta el modelo de lenguaje de escucha mientras se habla (LSLM), un diseño innovador que permite la interacción ininterrumpida en tiempo real al integrar las capacidades de escucha y habla dentro de un solo sistema.
Los métodos actuales en los modelos de habla y lenguaje suelen implicar sistemas basados en turnos, en los que la escucha y el habla se producen en fases aisladas. Estos sistemas suelen emplear módulos separados de reconocimiento automático de voz (ASR) y de conversión de texto a voz (TTS), lo que genera problemas de latencia y una incapacidad para gestionar eficazmente las interrupciones en tiempo real. Modelos notables como SpeechGPT y LauraGPT cuentan con una IA conversacional avanzada. Sin embargo, siguen limitados a estos paradigmas basados en turnos, incapaces de proporcionar la interacción fluida necesaria para un diálogo más natural entre humanos y computadoras.
Para superar estas limitaciones, un equipo de investigadores de la Universidad Jiao Tong de Shanghái y ByeDance propone el LSLM, un sistema de extremo a extremo diseñado para realizar simultáneamente tanto la escucha como el habla. Este modelo emplea un decodificador basado únicamente en tokens TTS para la generación de voz y un codificador de aprendizaje autosupervisado (SSL) en tiempo real para la entrada de audio en tiempo real. El enfoque único del LSLM radica en su capacidad para fusionar estos canales, lo que le permite detectar turnos en tiempo real y responder de forma dinámica. Al explorar tres estrategias de fusión (fusión temprana, fusión media y fusión tardía), los investigadores identificaron la fusión media como el equilibrio óptimo entre la generación de voz y las capacidades de interacción en tiempo real.
La arquitectura del LSLM gira en torno a su diseño de canal dual. Para hablar, el modelo utiliza un sistema de texto a voz basado en tokens autorregresivos. A diferencia de los modelos anteriores que se basan en enfoques autorregresivos y no autorregresivos, el LSLM simplifica esto mediante el uso de tokens de audio discretos, lo que mejora la interacción en tiempo real y elimina la necesidad de un procesamiento extenso antes de la síntesis de voz. El canal de habla genera tokens de voz basados en el contexto dado con un vocoder, que convierte estos tokens en voz audible. Esta configuración permite que el modelo se centre más en la información semántica, lo que mejora la claridad y la relevancia de sus respuestas.
En el lado de la escucha, el modelo emplea un codificador SSL de transmisión para procesar las señales de audio entrantes de forma continua. Este codificador convierte la entrada de audio en incrustaciones continuas y luego las proyecta en un espacio que se puede procesar junto con los tokens de habla. Estos canales se integran a través de uno de los tres métodos de fusión, siendo la fusión intermedia la más efectiva. En este método, los canales de escucha y habla se fusionan en cada bloque Transformer, lo que permite que el modelo aproveche la información de ambos canales durante todo el proceso de generación de voz. Esta estrategia de fusión garantiza que el LSLM pueda manejar las interrupciones sin problemas y mantener un flujo de diálogo coherente y receptivo.
La evaluación del rendimiento del LSLM se llevó a cabo en dos entornos experimentales: FDM basado en comandos y FDM basado en voz. En el escenario basado en comandos, se probó la capacidad del modelo para responder a comandos específicos en medio de ruido de fondo. Por el contrario, en el escenario basado en voz se evaluó su sensibilidad a las interrupciones de varios hablantes. Los resultados demostraron la solidez del LSLM en entornos ruidosos y su capacidad para reconocer y adaptarse a nuevas voces e instrucciones. La estrategia de fusión intermedia, en particular, equilibró las demandas de interacción en tiempo real y generación de voz, proporcionando una experiencia de usuario fluida.
El modelo de lenguaje de escucha mientras se habla (LSLM) representa un avance significativo en los modelos interactivos de habla y lenguaje. Al abordar las limitaciones de los sistemas por turnos e introducir una capacidad de interacción robusta en tiempo real, el LSLM allana el camino para diálogos entre humanos y computadoras más naturales y fluidos. La investigación destaca la importancia de integrar capacidades de dúplex completo en los SLM, mostrando cómo estos avances pueden mejorar la aplicabilidad de la IA conversacional en escenarios del mundo real. A través de su diseño innovador y su impresionante rendimiento, el LSLM establece un nuevo estándar para futuros desarrollos en HCI basada en el habla.
Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Shreya Maji es pasante de consultoría en MarktechPost. Estudió su licenciatura en el Instituto Indio de Tecnología (IIT) en Bhubaneswar. Es una entusiasta de la inteligencia artificial y le gusta mantenerse al día de los últimos avances. Shreya está particularmente interesada en las aplicaciones reales de la tecnología de vanguardia, especialmente en el campo de la ciencia de datos.