Stepfun presenta Step-Audio-Aqaa: un modelo de lenguaje de audio completamente de extremo a extremo para la interacción de voz natural

Repensar la interacción humana basada en audio

Las máquinas que pueden responder al discurso humano con audio igualmente expresivo y natural se han convertido en un objetivo importante en los sistemas de interacción inteligente. El modelado de lenguaje de audio extiende esta visión combinando el reconocimiento de voz, la comprensión del lenguaje natural y la generación de audio. En lugar de confiar en las conversiones de texto, los modelos en este espacio tienen como objetivo comprender y responder usando la voz sola. Esto es crucial no solo para la accesibilidad y la inclusión, sino también para lograr más interacciones de máquina fluidas y similares a los humanos en aplicaciones como asistentes de voz, narración de historias basadas en audio y computación manos libres.

Limitaciones de las tuberías del habla en cascada

A pesar de los avances en la comprensión de audio, queda un desafío claro: la mayoría de los sistemas aún dependen de una cadena de módulos separados para la conversión de voz a texto, procesamiento de texto y texto a voz. Este enfoque modular puede degradar el rendimiento y la capacidad de respuesta debido a errores y latencia acumulados. Además, estas tuberías carecen de control expresivo, lo que las hace inadecuadas para tareas matizadas como el diálogo emocional o la síntesis dinámica del habla. Una solución ideal sería un modelo totalmente unificado capaz de comprender una pregunta de audio y generar una respuesta de audio expresiva directamente, eliminando así toda la intermediación basada en texto.

Desde modelos basados en tokens hasta Lalmos completamente unificados

Varios métodos han intentado abordar esto. Los primeros enfoques, como HuggingGPT y Audiogpt, utilizaron arquitecturas en cascada que combinaron modelos separados de voz e idiomas. Mientras ampliaron la cobertura de tareas, estos sistemas lucharon con la interacción de voz en tiempo real. Los trabajos posteriores, como Vall-E, SpeechGPT, Audiopalm y QWen2-Audio, introdujeron sistemas basados en token que convierten el audio en representaciones discretas. Sin embargo, incluso estos modelos producen el texto de salida y requieren vocoders separados, lo que limita su capacidad para producir respuestas de audio expresivas e inmediatas.

Presentación de step-audio-aqaa: un sistema AQAA de extremo a extremo

Los investigadores de Stepfun introdujeron Step-Audio-Aqaa, un modelo de lenguaje de audio grande totalmente de extremo a extremo diseñado específicamente para tareas de respuesta de consulta de audio-audio. A diferencia de los modelos anteriores, el paso-audio-aqaa transforma directamente la entrada hablada en una salida hablada expresiva sin convertirla en texto intermedio. Esta arquitectura combina un tokenizer de doble código, una troncal de 130 mil millones de parámetros LLM llamado Step-AMNI, y un vocoder que coincide con el flujo para la síntesis de habla natural. La integración de estos componentes permite una interacción perfecta y de baja latencia.

Tokenización, arquitectura y control de voz

El método comienza con dos tokenizadores de audio separados, uno para características lingüísticas y otro para la prosodia semántica. El tokenizador lingüístico, basado en paraformador, extrae elementos de habla estructurados como fonemas a 16.7 Hz utilizando un libro de códigos de 1,024 tokens. Mientras tanto, el tokenizador semántico (inspirado en Cosyvoice 1.0) codifica la riqueza acústica a 25 Hz con 4,096 tokens. Estos se entrelazan en una relación 2: 3 y se transmiten a paso a paso, un decodificador multimodal LLM capacitado en datos de texto, audio e imagen. Después de esto, el modelo genera secuencias de TRI-CodeBook de tokens de audio y texto, que el vocoder transforma en discurso fluido. Esta configuración permite un control de voz de grano fino, incluido el tono emocional y la velocidad del habla.

Evaluación y resultados de referencia

El modelo se evaluó utilizando el punto de referencia Stepeval-Audio-360, que comprende tareas multilingües de audio multi-dialectal en nueve categorías, incluida la creatividad, los juegos, el control de emociones, el juego de roles y la comprensión de la voz. En comparación con los modelos de vanguardia como Kimi-Audio y Qwen-AMNI, Step-Audio-Aqaa logró los puntajes de opinión medios más altos en la mayoría de las categorías. Específicamente, en los experimentos de relación token de audio de texto, la configuración con una relación de 10:15 alcanzó el rendimiento superior con los puntajes de chat (4.03), relevancia (0.65) y de hecho (0.67). Entre las diferentes técnicas de intercalación de audio, la concatenación de preservación de marcadores funcionó mejor, con el chat (4.22), la relevancia (0.57) y los puntajes de facturidad (0.57). Estos números reflejan su fuerza en la generación de respuestas de audio semánticamente precisas, emocionalmente ricas y conscientes del contexto.

Conclusión: Hacia el discurso de la máquina expresiva

Step-Audio-Aqaa ofrece una solución robusta a las limitaciones de las tuberías modulares de procesamiento del habla. Al combinar la tokenización de audio expresiva, una potente LLM multimodal y estrategias avanzadas posteriores a la capacitación, como la optimización de preferencias directas y la fusión del modelo, tiene éxito en generar respuestas de audio de alta calidad y emocionalmente resonantes. Este trabajo marca un paso adelante significativo para permitir que las máquinas se comuniquen con el habla que no solo es funcional sino expresiva y fluida.

Mira el Papel y Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Stepfun presenta Step-Audio-Aqaa: un modelo de lenguaje de audio completamente de extremo a extremo para la interacción de voz natural

ByEquipo de 7 minutos

Repensar la interacción humana basada en audio

Limitaciones de las tuberías del habla en cascada

Desde modelos basados en tokens hasta Lalmos completamente unificados

Presentación de step-audio-aqaa: un sistema AQAA de extremo a extremo

Tokenización, arquitectura y control de voz

Evaluación y resultados de referencia

Conclusión: Hacia el discurso de la máquina expresiva

By Equipo de 7 minutos

Related Post

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

Una implementación de codificación para recuperar IOC de malware oculto con FLARE-FLOSS más allá del análisis de cadenas clásico

You missed

Imágenes raras del fondo marino del Ártico capturan narvales, peces nadando hacia atrás y copépodos aterrorizados

Cory Booker critica la mayoría corrupta de la Corte Suprema y exige reformas

Chinchín Puerto ofrece marisco fresco y de alta gama « Euro Weekly News

Décima lista de marcas de Thalapathy Vijay: ¿Cuánto anotó la estrella de Jana Nayagan en sus años escolares?

ByEquipo de 7 minutos

Repensar la interacción humana basada en audio

Limitaciones de las tuberías del habla en cascada

Desde modelos basados ​​en tokens hasta Lalmos completamente unificados

Presentación de step-audio-aqaa: un sistema AQAA de extremo a extremo

Tokenización, arquitectura y control de voz

Evaluación y resultados de referencia

Conclusión: Hacia el discurso de la máquina expresiva

By Equipo de 7 minutos

Related Post

You missed

Desde modelos basados en tokens hasta Lalmos completamente unificados