Modelo de lenguaje de escucha y habla (LSLM): un sistema de extremo a extremo equipado con canales de escucha y de habla

En el ámbito de la interacción entre humanos y computadoras (HCI), el diálogo se destaca como la forma más natural de comunicación. La aparición de los modelos de lenguaje de voz (SLM) ha mejorado significativamente la IA conversacional basada en el habla, pero estos modelos siguen limitados a interacciones por turnos, lo que limita su aplicabilidad en escenarios en tiempo real. Esta brecha en la interacción en tiempo real presenta un desafío significativo, particularmente en situaciones que requieren retroalimentación inmediata y un flujo conversacional dinámico. La incapacidad de manejar interrupciones y mantener una interacción fluida ha impulsado a los investigadores a explorar el modelado dúplex completo (FDM) en modelos de lenguaje de voz interactivos (iSLM). Para abordar este desafío, la investigación presenta el modelo de lenguaje de escucha mientras se habla (LSLM), un diseño innovador que permite la interacción ininterrumpida en tiempo real al integrar las capacidades de escucha y habla dentro de un solo sistema.

Los métodos actuales en los modelos de habla y lenguaje suelen implicar sistemas basados en turnos, en los que la escucha y el habla se producen en fases aisladas. Estos sistemas suelen emplear módulos separados de reconocimiento automático de voz (ASR) y de conversión de texto a voz (TTS), lo que genera problemas de latencia y una incapacidad para gestionar eficazmente las interrupciones en tiempo real. Modelos notables como SpeechGPT y LauraGPT cuentan con una IA conversacional avanzada. Sin embargo, siguen limitados a estos paradigmas basados en turnos, incapaces de proporcionar la interacción fluida necesaria para un diálogo más natural entre humanos y computadoras.

Para superar estas limitaciones, un equipo de investigadores de la Universidad Jiao Tong de Shanghái y ByeDance propone el LSLM, un sistema de extremo a extremo diseñado para realizar simultáneamente tanto la escucha como el habla. Este modelo emplea un decodificador basado únicamente en tokens TTS para la generación de voz y un codificador de aprendizaje autosupervisado (SSL) en tiempo real para la entrada de audio en tiempo real. El enfoque único del LSLM radica en su capacidad para fusionar estos canales, lo que le permite detectar turnos en tiempo real y responder de forma dinámica. Al explorar tres estrategias de fusión (fusión temprana, fusión media y fusión tardía), los investigadores identificaron la fusión media como el equilibrio óptimo entre la generación de voz y las capacidades de interacción en tiempo real.

La arquitectura del LSLM gira en torno a su diseño de canal dual. Para hablar, el modelo utiliza un sistema de texto a voz basado en tokens autorregresivos. A diferencia de los modelos anteriores que se basan en enfoques autorregresivos y no autorregresivos, el LSLM simplifica esto mediante el uso de tokens de audio discretos, lo que mejora la interacción en tiempo real y elimina la necesidad de un procesamiento extenso antes de la síntesis de voz. El canal de habla genera tokens de voz basados en el contexto dado con un vocoder, que convierte estos tokens en voz audible. Esta configuración permite que el modelo se centre más en la información semántica, lo que mejora la claridad y la relevancia de sus respuestas.

En el lado de la escucha, el modelo emplea un codificador SSL de transmisión para procesar las señales de audio entrantes de forma continua. Este codificador convierte la entrada de audio en incrustaciones continuas y luego las proyecta en un espacio que se puede procesar junto con los tokens de habla. Estos canales se integran a través de uno de los tres métodos de fusión, siendo la fusión intermedia la más efectiva. En este método, los canales de escucha y habla se fusionan en cada bloque Transformer, lo que permite que el modelo aproveche la información de ambos canales durante todo el proceso de generación de voz. Esta estrategia de fusión garantiza que el LSLM pueda manejar las interrupciones sin problemas y mantener un flujo de diálogo coherente y receptivo.

La evaluación del rendimiento del LSLM se llevó a cabo en dos entornos experimentales: FDM basado en comandos y FDM basado en voz. En el escenario basado en comandos, se probó la capacidad del modelo para responder a comandos específicos en medio de ruido de fondo. Por el contrario, en el escenario basado en voz se evaluó su sensibilidad a las interrupciones de varios hablantes. Los resultados demostraron la solidez del LSLM en entornos ruidosos y su capacidad para reconocer y adaptarse a nuevas voces e instrucciones. La estrategia de fusión intermedia, en particular, equilibró las demandas de interacción en tiempo real y generación de voz, proporcionando una experiencia de usuario fluida.

El modelo de lenguaje de escucha mientras se habla (LSLM) representa un avance significativo en los modelos interactivos de habla y lenguaje. Al abordar las limitaciones de los sistemas por turnos e introducir una capacidad de interacción robusta en tiempo real, el LSLM allana el camino para diálogos entre humanos y computadoras más naturales y fluidos. La investigación destaca la importancia de integrar capacidades de dúplex completo en los SLM, mostrando cómo estos avances pueden mejorar la aplicabilidad de la IA conversacional en escenarios del mundo real. A través de su diseño innovador y su impresionante rendimiento, el LSLM establece un nuevo estándar para futuros desarrollos en HCI basada en el habla.

Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí

Modelo de lenguaje de escucha y habla (LSLM): un sistema de extremo a extremo equipado con canales de escucha y de habla

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

You missed

El cometa 3I/ATLAS arrojó metano al pasar por el Sol, revelando hielos ocultos debajo de su superficie

27 a 500+: victorias en conservación, recuperación, protección y reintroducción del hábitat

La crisis energética de los centros de datos está asfixiando la revolución de la IA

La autoridad sanitaria de Valencia da marcha atrás en la aplicación GVA+ Salut tras la reacción de un usuario y restablece el acceso mediante PIN de cuatro dígitos – The Leader