Los investigadores de KAIST proponen VSP-LLM: un nuevo marco de inteligencia artificial para maximizar la capacidad de modelado del contexto aportando el poder abrumador de los LLM

La percepción y la interpretación del habla dependen en gran medida de signos no verbales como los movimientos de los labios, que son indicadores visuales fundamentales para la comunicación humana. Este descubrimiento ha provocado el desarrollo de numerosos métodos de procesamiento del habla basados ​​en imágenes. Estas tecnologías incluyen la traducción visual del habla (VST), más sofisticada, que convierte el habla de un idioma a otro basándose únicamente en señales visuales, y el reconocimiento visual del habla (VSR), que interpreta las palabras habladas basándose únicamente en los movimientos de los labios.

El manejo de homofenos, o palabras que tienen diferentes sonidos pero los mismos movimientos de los labios, es un problema importante en este ámbito. Esto hace que sea más difícil distinguir e identificar palabras correctamente utilizando únicamente señales visuales. Dada su importante capacidad para percibir y modelar el contexto, los modelos de lenguajes grandes (LLM) han surgido y han demostrado ser exitosos en varios sectores, destacando su potencial para abordar tales dificultades. Esta capacidad es especialmente importante para el procesamiento visual del habla, ya que permite la distinción crítica de los homofenos. El modelado de contexto de los LLM puede mejorar la precisión de tecnologías como VSR y VST al resolver las ambigüedades presentes en el habla visual.

En una investigación reciente, un equipo de investigadores presentó un marco único llamado Procesamiento visual del habla combinado con LLM (VSP-LLM) en respuesta a este potencial. Este paradigma combina creativamente el conocimiento basado en texto de los LLM con el habla visual. Utiliza un modelo autosupervisado para el habla visual, traduciendo señales visuales en representaciones a nivel de fonemas. Luego, estas representaciones se pueden conectar de manera eficiente a datos textuales utilizando las fortalezas de los LLM en el modelado de contexto.

Este trabajo ha sugerido una técnica de deduplicación que tiene como objetivo acortar la longitud de la secuencia de entrada para los LLM con el fin de satisfacer las necesidades computacionales del entrenamiento utilizando LLM. Con este enfoque, la información redundante se detecta y promedia utilizando unidades de habla visual, que son representaciones discretizadas de propiedades del habla visual. Esto reduce a la mitad la longitud de secuencia necesaria para el procesamiento y mejora la eficiencia informática sin sacrificar el rendimiento.

Con un enfoque deliberado en el reconocimiento y la traducción visual del habla, VSP-LLM maneja una variedad de aplicaciones de procesamiento visual del habla. Debido a su adaptabilidad, el marco puede ajustar su funcionalidad a la tarea particular en cuestión según las instrucciones. La función principal del modelo es mapear los datos de video entrantes al espacio latente de un LLM mediante el uso de un modelo de voz visual autosupervisado. A través de esta integración, VSP-LLM puede utilizar mejor el potente modelado de contexto que proporcionan los LLM, mejorando el rendimiento general.

El equipo compartió que se realizaron experimentos en el punto de referencia MuAViC del conjunto de datos de traducción, que demostró la efectividad de VSP-LLM. El marco mostró un rendimiento mejor de lo esperado en el reconocimiento y la traducción del movimiento de los labios, incluso cuando se entrenó con un pequeño conjunto de datos que constaba de solo 15 horas de datos etiquetados. Este logro es especialmente notable en comparación con un modelo de traducción reciente entrenado en un conjunto de datos algo más grande de 433 horas de datos etiquetados.

En conclusión, este estudio representa un avance importante en la búsqueda de una tecnología de comunicación más precisa e inclusiva, con beneficios potenciales para mejorar la accesibilidad, la interacción del usuario y la comprensión interlingüística. A través de la integración de señales visuales y la comprensión contextual de los LLM, VSP-LLM no solo aborda problemas actuales en el área sino que también crea nuevas oportunidades para la investigación y el uso en la interacción persona-computadora.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.