NVIDIA y los investigadores de la Universidad de Maryland lanzaron Audio Flamingo Next (AF-Next): un modelo de lenguaje de audio grande, abierto y súper potente

Comprender el audio siempre ha sido la frontera multimodal que va por detrás de la visión. Si bien los modelos de lenguaje de imágenes han escalado rápidamente hacia su implementación en el mundo real, construir modelos abiertos que razonan sólidamente sobre el habla, los sonidos ambientales y la música (especialmente en detalle) sigue siendo bastante difícil. NVIDIA y los investigadores de la Universidad de Maryland ahora están atacando directamente esa brecha.

El equipo de investigación ha lanzado Audio Flamingo Next (AF-Next), el modelo más capaz de la serie Audio Flamingo y un modelo de lenguaje de audio grande (LALM) completamente abierto entrenado con datos de audio a escala de Internet.

Audio Flamingo Next (AF-Next) viene en tres variantes especializadas para diferentes casos de uso. El lanzamiento incluye AF-Next-Instruct para responder preguntas generales, AF-Next-Think para razonamiento avanzado de varios pasos y AF-Next-Captioner para subtítulos de audio detallados.

¿Qué es un modelo de audiolenguaje grande (LALM)?

Un modelo de lenguaje de audio grande (LALM) combina un codificador de audio con un modelo de lenguaje solo decodificador para permitir la respuesta a preguntas, subtítulos, transcripción y razonamiento directamente a través de entradas de audio. Piense en ello como el equivalente en audio de un modelo de visión y lenguaje como LLaVA o GPT-4V, pero diseñado para manejar el habla, los sonidos ambientales y la música simultáneamente, dentro de un único modelo unificado.

https://arxiv.org/pdf/2604.10905

La arquitectura: cuatro componentes trabajando en una tubería

AF-Next se basa en cuatro componentes principales: el primero es el codificador de audio AF-Whisper, un codificador personalizado basado en Whisper previamente entrenado en un corpus más grande y diverso, que incluye voz multilingüe y datos ASR de múltiples hablantes. Dada una entrada de audio, el modelo la vuelve a muestrear a mono de 16 kHz y convierte la forma de onda en un espectrograma log mel de 128 canales usando una ventana de 25 ms y un tamaño de salto de 10 ms. El espectrograma se procesa en fragmentos de 30 segundos que no se superponen a través de AF-Whisper, que genera características a 50 Hz, después de lo cual se aplica una capa de agrupación stride-2. La dimensión oculta es 1280.

En segundo lugar está el adaptador de audio, un MLP de 2 capas que asigna las representaciones de audio de AF-Whisper al espacio de incrustación del modelo de lenguaje. En tercer lugar está la columna vertebral de LLM: Qwen-2.5-7B, un modelo causal solo decodificador con 7B parámetros, 36 capas transformadoras y 16 cabezas de atención, con una longitud de contexto ampliada de 32k a 128k tokens mediante entrenamiento adicional de contexto largo.

Un detalle arquitectónico sutil pero importante es Rotary Time Embeddings (RoTE). Las codificaciones posicionales estándar en transformadores indexan un token por su posición de secuencia discreta i. RoTE reemplaza esto: en lugar del ángulo de rotación estándar de RoPE θ ← −i · 2π, RoTE usa θ ← −τi · 2π, donde τi es la marca de tiempo absoluta de cada token. Para los tokens de audio producidos a un ritmo fijo de 40 ms, se interpolan posiciones de tiempo discretas antes de introducirse en el módulo RoTE. Esto produce representaciones posicionales basadas en el tiempo real en lugar del orden de secuencia, una opción de diseño central que permite el razonamiento temporal del modelo, particularmente para audio largo. Finalmente, un módulo TTS de transmisión permite la interacción de voz a voz.

Cadena de pensamiento de audio temporal: la receta clave del razonamiento

Las indicaciones de cadena de pensamiento (CoT) han mejorado el razonamiento en los modelos de texto y visión, pero trabajos anteriores de CoT con audio mostraron solo pequeños avances porque los conjuntos de datos de entrenamiento se limitaban a clips cortos con preguntas simples. AF-Next aborda esto con Temporal Audio Chain-of-Thought, donde el modelo ancla explícitamente cada paso de razonamiento intermedio a una marca de tiempo en el audio antes de producir una respuesta, fomentando la agregación de evidencia fiel y reduciendo las alucinaciones en grabaciones largas.

Para entrenar esta capacidad, el equipo de investigación creó AF-Think-Time, un conjunto de datos de tripletes de cadenas de pensamiento, respuestas y preguntas seleccionadas a partir de fuentes de audio desafiantes, incluidos avances, resúmenes de películas, historias de misterio y conversaciones multipartitas de larga duración. AF-Think-Time consta de aproximadamente 43.000 muestras de entrenamiento, con un promedio de 446,3 palabras por cadena de pensamiento.

Entrenamiento a escala: 1 millón de horas, cuatro etapas

El conjunto de datos de entrenamiento final comprende aproximadamente 108 millones de muestras y aproximadamente 1 millón de horas de audio, extraídos de conjuntos de datos existentes publicados públicamente y de audio sin procesar recopilado de Internet abierto y posteriormente etiquetado sintéticamente. Las nuevas categorías de datos introducidas incluyen más de 200.000 videos de larga duración que abarcan de 5 a 30 minutos para subtítulos de formato largo y control de calidad, datos de comprensión del habla de múltiples hablantes que cubren la identificación del hablante, la identificación de interrupciones y el ASR del hablante objetivo, aproximadamente 1 millón de muestras para razonamiento de audio múltiple a través de múltiples entradas de audio simultáneas y aproximadamente 386.000 muestras de seguridad y seguimiento de instrucciones.

La capacitación sigue un plan de estudios de cuatro etapas, cada una con distintas combinaciones de datos y longitudes de contexto. El entrenamiento previo tiene dos subetapas: la etapa 1 entrena solo el adaptador de audio mientras mantiene congelados tanto AF-Whisper como el LLM (audio máximo de 30 segundos, contexto de token de 8K); La etapa 2 también afina el codificador de audio mientras mantiene el LLM congelado (audio máximo de 1 minuto, contexto de token de 8K). La capacitación intermedia también tiene dos subetapas: la Etapa 1 realiza un ajuste completo de todo el modelo, agregando AudioSkills-XL y datos recién seleccionados (audio máximo de 10 minutos, contexto de token de 24K); La etapa 2 introduce subtítulos de audio de larga duración y control de calidad, reduciendo el muestreo de la mezcla de la etapa 1 a la mitad de sus pesos de mezcla originales mientras expande el contexto a 128 000 tokens y el audio a 30 minutos. El modelo resultante de la mitad del entrenamiento se lanza específicamente como AF-Next-Captioner. Después de la capacitación, se aplica el aprendizaje por refuerzo basado en GRPO y se centra en el chat de varios turnos, la seguridad, el seguimiento de instrucciones y conjuntos de datos específicos de habilidades seleccionados, lo que produce AF-Next-Instruct. Finalmente, el entrenamiento CoT comienza desde AF-Next-Instruct, aplica SFT en AF-Think-Time, luego GRPO usando la combinación de datos posterior al entrenamiento, produciendo AF-Next-Think.

Una contribución notable del equipo de investigación es el paralelismo de secuencia híbrida, que hace factible el entrenamiento en contexto de 128K en audio de larga duración. Sin él, la expansión del token de audio supera las ventanas de contexto estándar y el costo de memoria cuadrático de la autoatención se vuelve inviable. La solución combina la atención de Ulysses, que utiliza colectivos de todos a todos para distribuir secuencias y dimensiones principales dentro de los nodos donde hay interconexiones de gran ancho de banda disponibles, con la atención de Ring, que hace circular bloques de valores clave entre nodos a través de transferencias punto a punto. Ulysses maneja la comunicación dentro del nodo de manera eficiente; El anillo escala a través de los nodos.

https://arxiv.org/pdf/2604.10905

Resultados de referencia: sólidos en todos los ámbitos

En MMAU-v05.15.25, el punto de referencia de razonamiento de audio más utilizado, AF-Next-Instruct logra una precisión promedio de 74,20 frente a 72,42 de Audio Flamingo 3, con AF-Next-Think alcanzando 75,01 y AF-Next-Captioner llegando a 75,76, con ganancias en las tres subcategorías: sonido (79,87), música. (75.3) y el habla (72.13). En el punto de referencia MMAU-Pro, más desafiante, AF-Next-Think (58,7) supera al Gemini-2.5-Pro ​​de código cerrado (57,4).

La comprensión musical ve avances particularmente fuertes. En el reconocimiento de instrumentos Medley-Solos-DB, AF-Next alcanza 92,13 frente a los 85,80 de Audio Flamingo 2. En los subtítulos de música de SongCaps, las puntuaciones de corrección y cobertura de GPT5 saltan de 6,7 y 6,2 (AF3) a 8,8 y 8,9 respectivamente.

La comprensión de audio de larga duración es donde AF-Next se distingue más claramente. En LongAudioBench, AF-Next-Instruct logra 73,9, superando tanto a Audio Flamingo 3 (68,6) como al Gemini 2.5 Pro de código cerrado (60,4). En la variante que incluye voz (+Voz), AF-Next alcanza 81,2 frente a los 66,2 de Gemini 2.5 Pro. En ASR, AF-Next-Instruct establece nuevos mínimos entre los LALM con una tasa de error de palabras de 1,54 en LibriSpeech test-clean y 2,76 en test-other. En VoiceBench, AF-Next-Instruct logra las puntuaciones más altas en AlpacaEval (4,43), CommonEval (3,96) y OpenBookQA (80,9), superando a Audio Flamingo 3 por más de 14 puntos en OpenBookQA. En la traducción de voz CoVoST2, AF-Next muestra una mejora particularmente notable de 12 puntos con respecto a Phi-4-mm en la traducción árabe EN→X (21,9 frente a 9,9).

https://arxiv.org/pdf/2604.10905

Conclusiones clave

Aquí hay cinco conclusiones clave:

Un modelo de audiolenguaje totalmente abierto a escala de Internet: AF-Next se considera el primer LALM que escala la comprensión de audio a datos a escala de Internet: aproximadamente 108 millones de muestras y 1 millón de horas de audio. La cadena de pensamiento de audio temporal resuelve el razonamiento de audio prolongado: en lugar de razonar como enfoques anteriores de CoT, AF-Next ancla explícitamente cada paso de razonamiento intermedio a una marca de tiempo en el audio antes de producir una respuesta. Esto hace que el modelo sea significativamente más fiel e interpretable en grabaciones largas de hasta 30 minutos, un problema que los modelos anteriores evitaban en gran medida. Tres variantes especializadas para diferentes casos de uso: el lanzamiento incluye AF-Next-Instruct para responder preguntas generales, AF-Next-Think para razonamiento avanzado de varios pasos y AF-Next-Captioner para subtítulos de audio detallados, lo que permite a los profesionales seleccionar el modelo correcto según su tarea en lugar de utilizar un punto de control único para todos. Supera a los modelos cerrados en audio largo a pesar de ser más pequeño en LongAudioBench, AF-Next-Instruct obtiene una puntuación de 73,9, superando al Gemini 2.5 Pro (60,4) y Audio Flamingo 3 (68,6) de código cerrado. En la variante más desafiante que incluye voz, la brecha se amplía aún más, con AF-Next alcanzando 81,2 frente a los 66,2 de Gemini 2.5 Pro.

Consulte el papel, la página del proyecto y los pesos del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros