En varias aplicaciones de procesamiento de lenguaje natural, los modelos de lenguaje grande basados en texto han mostrado un rendimiento impresionante e incluso a nivel humano. Mientras tanto, ha evolucionado un paradigma de capacitación de LLM conocido como ajuste de instrucciones, en el que los datos se organizan como pares de instrucción del usuario y respuesta de referencia, que permite a los LLM cumplir con comandos de usuario sin restricciones. Cada vez más, los investigadores están interesados en dotar a los LLM de habilidades sensoriales multimodales. La investigación actual se centra en vincular los LLM al codificador de un tipo de entrada más (como una imagen, un vídeo mudo, un evento de audio o una voz) o a codificadores de muchos tipos de entrada juntos.
Para alinear los espacios de salida del codificador con el espacio de entrada LLM, que a menudo se enseña mediante entrenamiento previo multimodal y ajuste de instrucciones, se puede utilizar un módulo de conexión y adaptadores LLM. La red neuronal abierta de voz, audio, lenguaje, música que se propone en este estudio es un LLM multimodal de audio-texto único que puede reconocer y comprender el habla, los eventos de audio y la música, las tres categorías principales de sonidos. SALMONN emplea un marco de codificador dual, que comprende un codificador de audio BEATs y un codificador de voz del modelo de voz Whisper, para mejorar el rendimiento en aplicaciones de audio de voz y sin voz.
Para mejorar aún más el rendimiento de Vicuña, la estrategia de adaptación de rango bajo se utiliza como un adaptador intermodal para hacer coincidir el espacio de entrada aumentado con el espacio de salida. Las fases intermodales de preentrenamiento y ajuste de instrucción de Q-Former y LoRA a nivel de ventana emplean muchos desafíos de habla, audio y música. Los LLM multimodales resultantes muestran poca o ninguna habilidad emergente intermodal y pueden restringirse a tipos específicos de tareas utilizadas en el ajuste de la instrucción, específicamente subtítulos de audio y reconocimiento de voz, lo que denominan problema de sobreajuste de tareas. La capacidad de ejecutar tareas intermodales que no se notan durante el entrenamiento se denomina en este estudio habilidades emergentes intermodales. Estas habilidades son básicamente las capacidades emergentes de los LLM que se pierden durante la adaptación de la instrucción.
Para mitigar el importante olvido catastrófico de las tareas de entrenamiento, sugieren agregar una etapa adicional de ajuste de activación de unos pocos disparos al repertorio de SALMONN. Las capacidades auditivas cognitivas de SALMONN se evalúan mediante una variedad de estándares del habla, eventos auditivos y música. Hay tres niveles para las tareas. Los dos primeros niveles evalúan actividades no entrenadas, mientras que el primer nivel compara ocho tareas que se enseñan en el ajuste de instrucciones, incluidos subtítulos de audio, traducción y reconocimiento de voz. En el segundo nivel se incluyen cinco tareas de procesamiento del lenguaje natural (PLN) basadas en el habla, incluido el llenado de espacios y la traducción a idiomas no entrenados. Estas tareas necesitan alineaciones multilingües y de alta calidad entre tokens de voz y texto.
La comprensión de información auditiva distinta del habla es necesaria para el último conjunto de actividades, como la narrativa basada en audio y el co-razonamiento de audio del habla. Los resultados de los experimentos demuestran que SALMONN puede completar todas estas tareas y desempeñarse de manera competitiva en los puntos de referencia de la industria cuando se utiliza como modelo único. Esto sugiere que es posible crear inteligencia artificial que sea capaz de “escuchar” y comprender una amplia variedad de entradas de audio, incluido el habla, los eventos de audio y la música.
La principal contribución de este artículo se puede resumir de la siguiente manera.
• Hasta donde saben, investigadores de la Universidad de Tsinghua y ByteDance ofrecen SALMONN, el primer LLM multimodal que puede reconocer y comprender entradas de audio generales, incluida voz, eventos de audio y música.
• Al variar el factor de escala de LoRA, investigan la existencia de habilidades emergentes intermodales. Luego sugieren una técnica de ajuste de activación de bajo costo como un paso de entrenamiento adicional que puede activar estas habilidades y reducir el olvido catastrófico de las tareas encontradas durante el entrenamiento.
• Proporcionan dos tareas nuevas, narración de historias basada en audio y razonamiento conjunto de audio hablado, y evalúan a SALMONN en una variedad de tareas que representan una variedad de habilidades auditivas generales.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.