Comprender lo que sucede en un clip de audio es un problema engañosamente difícil. Transcribir palabras habladas es la parte fácil. Un sistema verdaderamente capaz también necesita reconocer quién está hablando, detectar su estado emocional, interpretar sonidos de fondo, analizar contenido musical y responder preguntas basadas en el tiempo como “¿qué dijo el hablante en la marca de los 2 minutos?”. Para abordar todo eso fue necesario unir múltiples sistemas especializados.
El equipo de OpenMOSS, MOSI.AI y el Instituto de Innovación de Shanghai lanzaron MOSS-Audio: un modelo de comprensión de audio de código abierto diseñado para unificar todas esas capacidades dentro de un modelo básico único.
Lo que realmente hace MOSS-Audio
MOSS-Audio admite la comprensión del habla, la comprensión del sonido ambiental, la comprensión de la música, los subtítulos de audio, el control de calidad con reconocimiento del tiempo y el razonamiento complejo sobre audio del mundo real. Su conjunto de capacidades se divide en varias áreas distintas. Speech & Content Understanding reconoce y transcribe con precisión el contenido hablado, lo que permite alinear las marcas de tiempo tanto a nivel de palabra como de oración. El análisis de locutores, emociones y eventos identifica las características del locutor, analiza los estados emocionales en función del tono, el timbre y el contexto, y detecta eventos acústicos clave dentro del audio. La extracción de señales de escena y sonido extrae señales significativas de sonidos de fondo, ruido ambiental y señales distintas al habla para inferir el contexto y la atmósfera de la escena. Music Understanding analiza el estilo musical, la progresión emocional y la instrumentación. Audio Question Answering & Summarization maneja preguntas y resúmenes en discursos, podcasts, reuniones y entrevistas. Finalmente, Complex Reasoning realiza un razonamiento de múltiples saltos sobre contenido de audio, impulsado tanto por el entrenamiento en cadena de pensamiento como por el aprendizaje por refuerzo.
En términos prácticos, un único modelo MOSS-Audio puede hacer todo lo anterior sin tener que cambiar entre diferentes sistemas especializados.
Cuatro variantes de modelo
El equipo lanzó cuatro variantes en el lanzamiento: MOSS-Audio-4B-Instruct, MOSS-Audio-4B-Thinking, MOSS-Audio-8B-Instruct y MOSS-Audio-8B-Thinking. Vale la pena comprender la convención de nomenclatura si decide cuál utilizar. Las variantes de Instruct están optimizadas para el seguimiento directo de instrucciones, lo que las hace adecuadas para procesos de producción en los que desea resultados predecibles y estructurados. Las variantes de Thinking brindan capacidades de razonamiento en cadena de pensamiento más sólidas, más adecuadas para tareas que requieren inferencia de múltiples saltos. Los modelos 4B utilizan Qwen3-4B como columna vertebral de LLM y los modelos 8B utilizan Qwen3-8B, lo que da como resultado tamaños totales de modelo de aproximadamente 4,6 B y 8,6 B de parámetros respectivamente.
La arquitectura: tres componentes trabajando juntos
MOSS-Audio sigue un diseño modular que comprende tres componentes: un codificador de audio, un adaptador de modalidad y un modelo de lenguaje grande. El audio sin procesar primero se codifica mediante el codificador de audio MOSS en representaciones temporales continuas a 12,5 Hz. Luego, esas representaciones se proyectan en el espacio de incrustación del modelo de lenguaje a través del adaptador y finalmente el LLM las consume para la generación de texto autorregresivo.
El equipo de investigación entrenó el codificador desde cero en lugar de depender de interfaces de audio disponibles en el mercado. Su razonamiento: un codificador dedicado ofrece representaciones de voz más sólidas, una alineación temporal más estrecha y una mejor extensibilidad en todos los dominios acústicos.
Vale la pena comprender en detalle dos innovaciones arquitectónicas dentro de MOSS-Audio.
Inyección de funciones entre capas de DeepStack: una debilidad común en los modelos de audio es que confiar únicamente en las funciones de la capa superior del codificador tiende a perder información acústica de bajo nivel, cosas como prosodia, eventos transitorios y estructura de tiempo-frecuencia local. MOSS-Audio aborda esto con un módulo de inyección entre capas inspirado en DeepStack entre el codificador y el modelo de lenguaje: además de la salida de la capa final del codificador, las características de las capas anteriores e intermedias se seleccionan, proyectan de forma independiente y se inyectan en las primeras capas del modelo de lenguaje. Esto preserva información de granularidad múltiple que va desde detalles acústicos de bajo nivel hasta abstracciones semánticas de alto nivel, lo que ayuda al modelo a retener el ritmo, el timbre, los transitorios y la estructura de fondo que una única representación de alto nivel no puede capturar por completo.
Representación consciente del tiempo: el tiempo es una dimensión crítica en el audio que los modelos de texto no están naturalmente equipados para manejar. MOSS-Audio aborda esto mediante una estrategia de inserción de marcadores de tiempo durante el entrenamiento previo: se insertan tokens de tiempo explícitos entre representaciones de cuadros de audio a intervalos de tiempo fijos para indicar posiciones temporales. Esto permite que el modelo aprenda “qué sucedió y cuándo” dentro de un marco de generación de texto unificado, lo que naturalmente admite ASR de marca de tiempo, localización de eventos, control de calidad basado en el tiempo y retrospección de audio de larga duración, sin necesidad de un cabezal de localización independiente o un canal de posprocesamiento.
Rendimiento de referencia
Los números son fuertes. En cuanto a la comprensión general del audio, MOSS-Audio-8B-Thinking logra una precisión promedio de 71,08 en cuatro puntos de referencia: 77,33 en MMAU, 64,92 en MMAU-Pro, 66,53 en MMAR y 75,52 en MMSU, superando a la mayoría de los modelos de código abierto. Eso incluye modelos más grandes: Step-Audio-R1 en 33B obtiene una puntuación de 70,67 y Qwen3-Omni-30B-A3B-Instruct en 30B obtiene una puntuación de 67,91. Para mayor contexto, Kimi-Audio (7B) obtiene una puntuación de 61,14 y MiMo-Audio-7B obtiene una puntuación de 62,97 en el mismo promedio. La variante 4B Thinking obtiene una puntuación de 68,37, lo que significa que el modelo más pequeño con entrenamiento en cadena de pensamiento supera a todos los competidores más grandes de código abierto que solo ofrecen instrucciones.
En cuanto a los subtítulos de voz, evaluados con una metodología LLM-as-a-Judge en 13 dimensiones detalladas que incluyen género, edad, acento, tono, volumen, velocidad, textura, claridad, fluidez, emoción, tono, personalidad y resumen, las variantes de MOSS-Audio-Instruct lideran en 11 de 13 dimensiones, y MOSS-Audio-8B-Instruct logra la mejor puntuación promedio general de 3,7252.
En el reconocimiento automático de voz (ASR) que abarca 12 dimensiones de evaluación, incluido el estado de salud, el cambio de código, el dialecto, el canto y escenarios sin habla, MOSS-Audio-8B-Instruct logra el CER (tasa de error de caracteres) general más bajo de 11,30 en todos los modelos probados.
Conclusiones clave
Modelo único, pila de audio completa: MOSS-Audio unifica la transcripción del habla, el análisis de las emociones y del hablante, la comprensión del sonido ambiental, el análisis de la música, los subtítulos de audio, el control de calidad con reconocimiento del tiempo y el razonamiento complejo en un modelo de código abierto, eliminando la necesidad de encadenar múltiples sistemas especializados. Dos innovaciones arquitectónicas impulsan el rendimiento: la inyección de características entre capas de DeepStack preserva la información acústica de granularidad múltiple al inyectar características de las capas intermedias del codificador directamente en las primeras capas del LLM, mientras que la inserción de marcadores de tiempo durante el entrenamiento previo le da al modelo una conciencia temporal explícita para las tareas basadas en marcas de tiempo. Los mejores resultados de referencia de su clase a escala eficiente: MOSS-Audio-8B-Thinking logra una precisión promedio de 71,08 en puntos de referencia generales de comprensión de audio, superando a todos los modelos de código abierto, incluidos los sistemas 30B+, mientras que la variante 4B Thinking por sí sola supera a todos los competidores más grandes de código abierto de solo instrucciones. Precisión ASR de marca de tiempo dominante: MOSS-Audio-8B-Instruct obtiene una puntuación de 35,77 AAS en AISHELL-1 y 131,61 AAS en LibriSpeech, superando drásticamente tanto a Qwen3-Omni-30B-A3B-Instruct (833,66) como al Gemini-3.1-Pro de código cerrado (708,24) en el mismo punto de referencia.
Consulte los pesos del modelo y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros