Se lanza Qwen2-Audio: un modelo de lenguaje de audio revolucionario que supera desafíos de audio complejos con precisión inigualable y capacidades de interacción versátiles

El audio, como medio, posee un inmenso potencial para transmitir información compleja, lo que lo hace esencial para desarrollar sistemas que puedan interpretar y responder con precisión a las entradas de audio. El campo apunta a crear modelos que puedan comprender una amplia gama de sonidos, desde el lenguaje hablado hasta el ruido ambiental, y utilizar esta comprensión para facilitar interacciones más naturales entre humanos y máquinas. Estos avances son clave para ampliar los límites de la Inteligencia Artificial General (AGI), donde las máquinas no solo procesan el audio sino que también derivan significado y contexto de él.

Uno de los principales desafíos en este ámbito es el desarrollo de sistemas capaces de manejar la naturaleza diversa de las señales de audio en escenarios del mundo real. Los modelos tradicionales a menudo fallan a la hora de reconocer y responder a entradas de audio complejas, como sonidos superpuestos, entornos con múltiples altavoces y formatos de audio mixtos. El problema se agrava cuando se espera que estos sistemas funcionen sin un ajuste fino extenso y específico para cada tarea. Esta limitación ha llevado a los investigadores a explorar nuevas metodologías que puedan equipar mejor a los modelos para lidiar con la imprevisibilidad y la complejidad de los datos de audio del mundo real, mejorando así su capacidad para seguir instrucciones y responder con precisión en diversos contextos.

Históricamente, los modelos de audio y lenguaje se han basado en sistemas de etiquetado jerárquico y en procesos de preentrenamiento complicados. Estos modelos, como Whisper y SpeechT5, han sido fundamentales para el avance del campo, pero requieren un ajuste significativo para funcionar bien en tareas específicas. Whisper-large-v3, por ejemplo, es conocido por sus capacidades de evaluación de cero disparos en ciertos conjuntos de datos, pero tiene dificultades con tareas que requieren una comprensión más allá del simple reconocimiento de voz. A pesar de las mejoras, estos modelos han mostrado limitaciones en escenarios que exigen una interpretación matizada de datos de audio multimodales, como el habla, la música y los sonidos ambientales simultáneos.

Los investigadores del equipo Qwen de Alibaba Group presentaron Qwen2-Audioun modelo avanzado de lenguaje de audio a gran escala diseñado para procesar y responder a señales de audio complejas sin necesidad de realizar ajustes específicos para cada tarea. Qwen2-Audio se distingue por simplificar el proceso de preentrenamiento mediante indicaciones en lenguaje natural en lugar de etiquetas jerárquicas, lo que expande significativamente el volumen de datos del modelo y mejora sus capacidades de seguimiento de instrucciones. El modelo opera en dos modos principales: chat de voz y análisis de audio, lo que le permite participar en interacciones de voz de forma libre o analizar varios tipos de datos de audio según las instrucciones del usuario. La funcionalidad de modo dual garantiza que Qwen2-Audio realice transiciones fluidas entre tareas sin indicaciones del sistema independientes.

La arquitectura de Qwen2-Audio integra un codificador de audio sofisticado, inicializado en base al modelo Whisper-large-v3, con el modelo de lenguaje grande Qwen-7B como su componente principal. El proceso de entrenamiento implica convertir formas de onda de audio sin procesar en espectrogramas mel de 128 canales, que luego se procesan utilizando un tamaño de ventana de 25 ms y un tamaño de salto de 10 ms. Los datos resultantes pasan a través de una capa de agrupamiento, lo que reduce la longitud de la representación de audio y garantiza que cada cuadro corresponda a aproximadamente 40 ms de la señal de audio original. Con 8.2 mil millones de parámetros, Qwen2-Audio puede manejar varias entradas de audio, desde voz simple hasta entornos de audio complejos y multimodales.

Las evaluaciones de rendimiento revelan que Qwen2-Audio se destaca en varios puntos de referencia, superando a los modelos anteriores en tareas como Reconocimiento automático de voz (ASR), Traducción de voz a texto (S2TT) y Reconocimiento de emociones del habla (SER). El modelo logró una tasa de error de palabras (WER) del 1,6 % en el conjunto de datos de prueba de Librispeech y del 3,6 % en el conjunto de datos de prueba de otros, mejorando significativamente con respecto a modelos anteriores como Whisper-large-v3. En la traducción de voz a texto, Qwen2-Audio superó las líneas de base en siete direcciones de traducción, logrando una puntuación BLEU de 45,2 en la dirección en-de y 24,4 en la dirección zh-en. Además, en la tarea de Clasificación de sonido vocal (VSC), Qwen2-Audio alcanzó una precisión del 93,92 %, lo que demuestra su sólido rendimiento en diversas tareas de audio.

En conclusión, Qwen2-Audio, al simplificar el proceso de preentrenamiento, ampliar el volumen de datos e integrar una arquitectura avanzada, aborda las limitaciones de sus predecesores y establece un nuevo estándar para los sistemas de interacción de audio. Su capacidad para desempeñarse bien en diversas tareas sin requerir ajustes específicos para cada tarea resalta su potencial para revolucionar la forma en que las máquinas procesan e interactúan con las señales de audio.


Echa un vistazo a la Papel, Tarjeta modeloy ManifestaciónTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí



Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.