Stepfun presenta Step-Audio-Aqaa: un modelo de lenguaje de audio completamente de extremo a extremo para la interacción de voz natural

Repensar la interacción humana basada en audio

Las máquinas que pueden responder al discurso humano con audio igualmente expresivo y natural se han convertido en un objetivo importante en los sistemas de interacción inteligente. El modelado de lenguaje de audio extiende esta visión combinando el reconocimiento de voz, la comprensión del lenguaje natural y la generación de audio. En lugar de confiar en las conversiones de texto, los modelos en este espacio tienen como objetivo comprender y responder usando la voz sola. Esto es crucial no solo para la accesibilidad y la inclusión, sino también para lograr más interacciones de máquina fluidas y similares a los humanos en aplicaciones como asistentes de voz, narración de historias basadas en audio y computación manos libres.

Limitaciones de las tuberías del habla en cascada

A pesar de los avances en la comprensión de audio, queda un desafío claro: la mayoría de los sistemas aún dependen de una cadena de módulos separados para la conversión de voz a texto, procesamiento de texto y texto a voz. Este enfoque modular puede degradar el rendimiento y la capacidad de respuesta debido a errores y latencia acumulados. Además, estas tuberías carecen de control expresivo, lo que las hace inadecuadas para tareas matizadas como el diálogo emocional o la síntesis dinámica del habla. Una solución ideal sería un modelo totalmente unificado capaz de comprender una pregunta de audio y generar una respuesta de audio expresiva directamente, eliminando así toda la intermediación basada en texto.

Desde modelos basados ​​en tokens hasta Lalmos completamente unificados

Varios métodos han intentado abordar esto. Los primeros enfoques, como HuggingGPT y Audiogpt, utilizaron arquitecturas en cascada que combinaron modelos separados de voz e idiomas. Mientras ampliaron la cobertura de tareas, estos sistemas lucharon con la interacción de voz en tiempo real. Los trabajos posteriores, como Vall-E, SpeechGPT, Audiopalm y QWen2-Audio, introdujeron sistemas basados ​​en token que convierten el audio en representaciones discretas. Sin embargo, incluso estos modelos producen el texto de salida y requieren vocoders separados, lo que limita su capacidad para producir respuestas de audio expresivas e inmediatas.

Presentación de step-audio-aqaa: un sistema AQAA de extremo a extremo

Los investigadores de Stepfun introdujeron Step-Audio-Aqaa, un modelo de lenguaje de audio grande totalmente de extremo a extremo diseñado específicamente para tareas de respuesta de consulta de audio-audio. A diferencia de los modelos anteriores, el paso-audio-aqaa transforma directamente la entrada hablada en una salida hablada expresiva sin convertirla en texto intermedio. Esta arquitectura combina un tokenizer de doble código, una troncal de 130 mil millones de parámetros LLM llamado Step-AMNI, y un vocoder que coincide con el flujo para la síntesis de habla natural. La integración de estos componentes permite una interacción perfecta y de baja latencia.

Tokenización, arquitectura y control de voz

El método comienza con dos tokenizadores de audio separados, uno para características lingüísticas y otro para la prosodia semántica. El tokenizador lingüístico, basado en paraformador, extrae elementos de habla estructurados como fonemas a 16.7 Hz utilizando un libro de códigos de 1,024 tokens. Mientras tanto, el tokenizador semántico (inspirado en Cosyvoice 1.0) codifica la riqueza acústica a 25 Hz con 4,096 tokens. Estos se entrelazan en una relación 2: 3 y se transmiten a paso a paso, un decodificador multimodal LLM capacitado en datos de texto, audio e imagen. Después de esto, el modelo genera secuencias de TRI-CodeBook de tokens de audio y texto, que el vocoder transforma en discurso fluido. Esta configuración permite un control de voz de grano fino, incluido el tono emocional y la velocidad del habla.

Evaluación y resultados de referencia

El modelo se evaluó utilizando el punto de referencia Stepeval-Audio-360, que comprende tareas multilingües de audio multi-dialectal en nueve categorías, incluida la creatividad, los juegos, el control de emociones, el juego de roles y la comprensión de la voz. En comparación con los modelos de vanguardia como Kimi-Audio y Qwen-AMNI, Step-Audio-Aqaa logró los puntajes de opinión medios más altos en la mayoría de las categorías. Específicamente, en los experimentos de relación token de audio de texto, la configuración con una relación de 10:15 alcanzó el rendimiento superior con los puntajes de chat (4.03), relevancia (0.65) y de hecho (0.67). Entre las diferentes técnicas de intercalación de audio, la concatenación de preservación de marcadores funcionó mejor, con el chat (4.22), la relevancia (0.57) y los puntajes de facturidad (0.57). Estos números reflejan su fuerza en la generación de respuestas de audio semánticamente precisas, emocionalmente ricas y conscientes del contexto.

Conclusión: Hacia el discurso de la máquina expresiva

Step-Audio-Aqaa ofrece una solución robusta a las limitaciones de las tuberías modulares de procesamiento del habla. Al combinar la tokenización de audio expresiva, una potente LLM multimodal y estrategias avanzadas posteriores a la capacitación, como la optimización de preferencias directas y la fusión del modelo, tiene éxito en generar respuestas de audio de alta calidad y emocionalmente resonantes. Este trabajo marca un paso adelante significativo para permitir que las máquinas se comuniquen con el habla que no solo es funcional sino expresiva y fluida.


Mira el Papel y Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.