¿Por qué los modelos actuales de IA de audio suelen funcionar peor cuando generan razonamientos más largos en lugar de basar sus decisiones en el sonido real? El equipo de investigación de StepFun lanza Step-Audio-R1, un nuevo LLM de audio diseñado para escalar el tiempo de prueba, aborda este modo de falla mostrando que la caída de precisión con la cadena de pensamiento no es una limitación de audio sino un problema de entrenamiento y modalidad.
El problema central: los modelos de audio razonan sobre los sustitutos del texto
La mayoría de los modelos de audio actuales heredan su comportamiento de razonamiento del entrenamiento de texto. Aprenden a razonar como si leyeran transcripciones, no como si escucharan. El equipo de StepFun llama a esto razonamiento sustituto textual. El modelo utiliza palabras y descripciones imaginadas en lugar de señales acústicas como el contorno del tono, el ritmo, el timbre o los patrones de ruido de fondo.
Esta discrepancia explica por qué una cadena de pensamiento más larga a menudo perjudica el rendimiento del audio. El modelo gasta más tokens elaborando suposiciones erróneas o de modalidad irrelevante. Step-Audio-R1 ataca esto al obligar al modelo a justificar las respuestas utilizando evidencia acústica. El proceso de capacitación se organiza en torno a la Modalidad de Destilación de Razonamiento Fundamentado, MGRD, que selecciona y destila rastros de razonamiento que hacen referencia explícita a características de audio.
Arquitectura
La arquitectura se mantiene cercana a la de los sistemas Step Audio anteriores:
Un codificador de audio basado en Qwen2 procesa formas de onda sin procesar a 25 Hz. Un adaptador de audio reduce la resolución de la salida del codificador en un factor de 2, a 12,5 Hz, y alinea los fotogramas con el flujo del token de idioma. Un decodificador Qwen2.5 32B consume las funciones de audio y genera texto.
El decodificador siempre produce un bloque de razonamiento explícito dentro de etiquetas, seguido de la respuesta final. Esta separación permite que los objetivos de la capacitación den forma a la estructura y el contenido del razonamiento sin perder el foco en la precisión de la tarea. El modelo se lanza como un modelo de texto a texto de audio con parámetros 33B en Hugging Face bajo Apache 2.0.
Canal de capacitación, desde el arranque en frío hasta la RL con conexión a tierra de audio
El proceso tiene una etapa de inicio en frío supervisada y una etapa de aprendizaje por refuerzo que combina tareas de texto y audio.
El arranque en frío utiliza alrededor de 5 millones de ejemplos, que cubren mil millones de tokens de datos de solo texto y 4 mil millones de tokens de datos emparejados de audio. Las tareas de audio incluyen reconocimiento automático de voz, comprensión paralingüística y diálogos de estilo de respuesta de texto de preguntas en audio. Una fracción de los datos de audio contiene cadenas de audio de rastros de pensamiento generados por un modelo anterior. Los datos de texto cubren diálogos de varios turnos, respuesta a preguntas de conocimiento, razonamiento matemático y de código. Todos los ejemplos comparten un formato en el que el razonamiento está envuelto en etiquetas, incluso cuando el bloque de razonamiento está inicialmente vacío.
El aprendizaje supervisado entrena a Step-Audio-R1 para seguir este formato y generar razonamientos útiles tanto para audio como para texto. Esto proporciona una cadena básica de comportamiento de pensamiento, pero todavía está sesgado hacia el razonamiento basado en texto.
Modalidad Razonamiento fundamentado Destilación MGRD
MGRD se aplica en varias iteraciones. Para cada ronda, el equipo de investigación toma muestras de preguntas de audio en las que la etiqueta depende de propiedades acústicas reales. Por ejemplo, preguntas sobre las emociones del hablante, eventos de fondo en escenas sonoras o estructura musical. El modelo actual produce múltiples razonamientos y respuestas candidatas por pregunta. Un filtro mantiene sólo las cadenas que cumplen tres restricciones:
Hacen referencia a señales acústicas, no sólo a descripciones textuales o transcripciones imaginadas. Son lógicamente coherentes como explicaciones breves paso a paso. Sus respuestas finales son correctas según etiquetas o comprobaciones programáticas.
Estos rastros aceptados forman una cadena de audio destilada de un conjunto de datos de pensamiento. El modelo está ajustado en este conjunto de datos junto con los datos de razonamiento del texto original. A esto le sigue el aprendizaje por refuerzo con recompensas verificadas, RLVR. Para las preguntas de texto, las recompensas se basan en la exactitud de las respuestas. Para las preguntas de audio, la recompensa combina la corrección de la respuesta y el formato de razonamiento, con una ponderación típica de 0,8 para precisión y 0,2 para razonamiento. La capacitación utiliza PPO con alrededor de 16 respuestas muestreadas por mensaje y admite secuencias de hasta alrededor de 10 240 tokens para permitir una deliberación prolongada.
Puntos de referencia, cerrando la brecha con Gemini 3 Pro
En un conjunto de referencia combinado de voz a texto que incluye Big Bench Audio, Spoken MQA, MMSU, MMAU y Wild Speech, Step-Audio-R1 alcanza una puntuación promedio de alrededor del 83,6 por ciento. Gemini 2.5 Pro reporta alrededor del 81,5 por ciento y Gemini 3 Pro alcanza alrededor del 85,1 por ciento. Sólo en Big Bench Audio, Step-Audio-R1 alcanza alrededor del 98,7 por ciento, que es más alto que ambas versiones de Gemini.
Para el razonamiento de voz a voz, la variante Step-Audio-R1 Realtime adopta la transmisión de estilo escuchar mientras piensa y pensar mientras habla. En el habla a voz de Big Bench Audio, alcanza aproximadamente un 96,1 por ciento de precisión de razonamiento con una latencia del primer paquete de alrededor de 0,92 segundos. Esta puntuación supera las líneas base en tiempo real basadas en GPT y los diálogos de audio nativos estilo Flash Gemini 2.5 manteniendo una interacción inferior a un segundo.
Ablaciones, lo que importa para el razonamiento sonoro
La sección de ablación proporciona varias señales de diseño para los ingenieros:
Es necesaria una recompensa en formato de razonamiento. Sin él, el aprendizaje por refuerzo tiende a acortar o eliminar la cadena de pensamiento, lo que reduce las puntuaciones de las pruebas de audio. Los datos de RL deben apuntar a problemas de dificultad media. Seleccionar preguntas en las que el aprobado en 8 se encuentre en una banda media brinda recompensas más estables y mantiene un razonamiento prolongado. Escalar datos de audio RL sin dicha selección no ayuda. La calidad de las indicaciones y las etiquetas importa más que el tamaño bruto.
Los investigadores también describen un proceso de corrección de la autocognición que reduce la frecuencia de respuestas como “Solo puedo leer texto y no puedo escuchar audio” en un modelo entrenado para procesar sonido. Esto utiliza la optimización directa de preferencias en pares de preferencias seleccionados donde el comportamiento correcto es reconocer y utilizar la entrada de audio.
Conclusiones clave
Step-Audio-R1 es uno de los primeros modelos de lenguaje de audio que convierte una cadena de pensamiento más larga en una ganancia de precisión consistente para tareas de audio, resolviendo la falla de escala invertida observada en LLM de audio anteriores. El modelo apunta explícitamente al razonamiento sustituto textual mediante el uso de destilación de razonamiento basado en modalidad, que filtra y destila solo aquellos rastros de razonamiento que se basan en señales acústicas como el tono, el timbre y el ritmo en lugar de transcripciones imaginadas. Arquitectónicamente, Step-Audio-R1 combina un codificador de audio basado en Qwen2 con un adaptador y un decodificador Qwen2.5 32B que siempre genera segmentos de razonamiento antes de las respuestas y se lanza como un modelo de texto a texto de audio 33B bajo Apache 2.0. A través de completos puntos de referencia de razonamiento y comprensión de audio que cubren el habla, los sonidos ambientales y la música, Step-Audio-R1 supera a Gemini 2.5 Pro y alcanza un rendimiento comparable al de Gemini 3 Pro, al mismo tiempo que admite una variante en tiempo real para interacción de voz a voz de baja latencia. La receta de capacitación combina una cadena de pensamiento supervisada a gran escala, destilación basada en modalidades y aprendizaje por refuerzo con recompensas verificadas, lo que proporciona un modelo concreto y reproducible para construir futuros modelos de razonamiento de audio que realmente se beneficien del escalamiento computacional en el tiempo de prueba.
Notas editoriales
Step-Audio-R1 es una versión importante porque convierte la cadena de pensamiento de una responsabilidad en una herramienta útil para el razonamiento de audio al abordar directamente el razonamiento sustituto textual con la destilación del razonamiento fundamentado en la modalidad y el aprendizaje por refuerzo con recompensas verificadas. Muestra que el escalado de cálculo en el tiempo de prueba puede beneficiar a los modelos de audio cuando el razonamiento se basa en características acústicas y ofrece resultados de referencia comparables a Gemini 3 Pro, sin dejar de ser abierto y prácticamente utilizable para los ingenieros. En general, este trabajo de investigación convierte la deliberación extendida en LLM de audio de un modo de falla consistente a un patrón de diseño controlable y reproducible.
Consulte el papel, el repositorio, la página del proyecto y los pesos del modelo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.