Tencent AI Open Sources Covo-Audio: un modelo de lenguaje de voz 7B y un canal de inferencia para conversaciones y razonamientos de audio en tiempo real

Tencent AI Lab ha lanzado Covo-Audio, un modelo de lenguaje de audio grande (LALM) de extremo a extremo de 7B parámetros. El modelo está diseñado para unificar el procesamiento del habla y la inteligencia del lenguaje procesando directamente entradas de audio continuas y generando salidas de audio dentro de una única arquitectura.

Arquitectura del sistema

El marco Covo-Audio consta de cuatro componentes principales diseñados para una interacción intermodal fluida:

Codificador de audio: el modelo utiliza Whisper-large-v3 como codificador principal debido a su robustez contra el ruido de fondo y acentos variados. Este componente funciona a una velocidad de fotogramas de 50 Hz. Adaptador de audio: para unir el codificador y el LLM, un adaptador especializado emplea tres módulos de reducción de resolución, integrando capas lineales y convolucionales para reducir la velocidad de fotogramas de 50 Hz a 6,25 Hz. LLM Backbone: el sistema se basa en Qwen2.5-7B-Base, que se ha adaptado para procesar secuencias entrelazadas de características acústicas continuas y tokens textuales. Tokenizador y decodificador de voz: el tokenizador, basado en WavLM-large, utiliza un tamaño de libro de códigos de 16,384 para producir tokens de audio discretos a 25 Hz. El decodificador emplea un marco basado en Flow-Matching (FM) y un vocodificador BigVGAN para reconstruir formas de onda de 24K de alta fidelidad.

https://arxiv.org/pdf/2602.09823

Intercalado jerárquico trimodal

Una contribución central de este trabajo es la estrategia de entrelazado jerárquico trimodal de voz y texto. A diferencia de los métodos tradicionales que operan únicamente a nivel de palabra o carácter, este marco alinea características acústicas continuas (ac)(a_c), tokens de voz discretos (ad)(a_d) y texto en lenguaje natural

El modelo utiliza dos patrones principales:

Intercalado secuencial (ac→t→ad)(a_c \rightarrow t \rightarrow a_d): las características continuas, el texto y los tokens discretos se organizan en una cadena progresiva. Integración paralela (ac→t|ad)(a_c \rightarrow t | a_d): las características continuas están alineadas con una unidad de texto discreto acoplada.

El aspecto jerárquico garantiza la coherencia estructural mediante el uso de entrelazado a nivel de frase para una alineación detallada y entrelazado a nivel de oración para preservar la integridad semántica global en expresiones de formato largo. El proceso de capacitación implicó un proceso de capacitación previa de dos etapas que procesó un total de tokens 2T.

Desacoplamiento entre la inteligencia y el hablante

Para mitigar el alto costo de construir datos de diálogo a gran escala para oradores específicos, el equipo de investigación propuso una estrategia de desacoplamiento de oradores de inteligencia. Esta técnica separa la inteligencia del diálogo de la representación de voz, lo que permite una personalización flexible de la voz utilizando datos mínimos de texto a voz (TTS).

El método reformatea grabaciones TTS de alta calidad en pseudoconversaciones con pérdida de texto enmascarada. Al excluir la parte de respuesta de texto del cálculo de pérdida, el modelo preserva sus capacidades de razonamiento al mismo tiempo que hereda la naturalidad del hablante de TTS. Esto permite una interacción personalizada sin la necesidad de conjuntos de datos de diálogo extensos y específicos del hablante.

Interacción de voz full-duplex

Covo-Audio evolucionó a Covo-Audio-Chat-FD, una variante capaz de comunicación simultánea de doble flujo. El codificador de audio se reformatea en forma de transmisión por fragmentos, y las transmisiones del usuario y del modelo se entrelazan en fragmentos en una proporción de 1:4. Cada fragmento representa 0,16 segundos de audio.

El sistema gestiona estados conversacionales a través de tokens arquitectónicos específicos:

THINK Token: indica un estado de solo escucha mientras el modelo espera responder. Token SHIFT: Significa la transición al turno de palabra del modelo. Token BREAK: Detecta señales de interrupción (intrusiones), lo que hace que el modelo deje de hablar inmediatamente y vuelva a escuchar.

Para escenarios de múltiples turnos, el modelo implementa una estrategia recursiva de llenado de contexto, donde las características de audio continuas de la entrada del usuario y los tokens generados de turnos anteriores tienen el prefijo contexto histórico.

Razonamiento por audio y aprendizaje por refuerzo

Para mejorar el razonamiento complejo, el modelo incorpora razonamiento de cadena de pensamiento (CoT) y optimización de políticas relativas al grupo (GRPO). El modelo se optimiza utilizando una función de recompensa compuesta verificable:

$$R_{total} = R_{precisión} + R_{formato} + R_{consistencia} + R_{pensamiento}$$

Esta estructura permite que el modelo optimice la corrección (Raccuracy)(R_{accuracy}), la adherencia de la salida estructurada (Rformat)(R_{format}), la coherencia lógica (Rconsistency)(R_{consistency}) y la profundidad del razonamiento (Rthinking)(R_{thinking}).

Evaluación y Desempeño

Covo-Audio (7B) muestra resultados competitivos o superiores en varios puntos de referencia evaluados, con afirmaciones más sólidas para modelos de escala comparable y tareas seleccionadas de voz/audio. En el benchmark MMAU, logró una puntuación media del 75,30%, la más alta entre los modelos de escala 7B evaluados. Destacó notablemente en comprensión musical con una puntuación del 76,05%. En el punto de referencia MMSU, Covo-Audio logró una precisión promedio líder del 66,64%.

En cuanto a sus variantes conversacionales, Covo-Audio-Chat demostró un sólido desempeño en URO-Bench, particularmente en tareas de razonamiento del habla y diálogo hablado, superando a modelos como Qwen3-Omni en la pista china. Para la interacción empática en el punto de referencia VStyle, logró resultados de última generación en mandarín para la ira (4,89), la tristeza (4,93) y la ansiedad (5,00).

El equipo de investigación observa un problema de “respuesta temprana” en la configuración full-duplex de GaokaoEval, donde pausas silenciosas inusualmente largas entre fragmentos vocales pueden provocar respuestas prematuras. Este comportamiento de “respuesta temprana” se correlaciona con la métrica de éxito del manejo de pausas del modelo y se identifica como una dirección crítica para la optimización futura.

Conclusiones clave

Arquitectura unificada de extremo a extremo: Covo-Audio es un modelo de parámetros 7B que procesa de forma nativa entradas de audio continuas y genera salidas de audio de alta fidelidad dentro de una arquitectura única y unificada. Elimina la necesidad de canalizaciones ASR-LLM-TTS en cascada, lo que reduce la propagación de errores y la pérdida de información. Intercalado trimodal jerárquico: el modelo emplea una estrategia especializada para alinear características acústicas continuas, tokens de voz discretos y texto en lenguaje natural. Al intercalar estas modalidades tanto a nivel de frase como de oración, se preserva la integridad semántica global al tiempo que se capturan matices prosódicos detallados. Desacoplamiento inteligencia-hablante: el equipo de investigación de Tencent presenta una técnica para desacoplar la inteligencia del diálogo de la representación de voz específica. Esto permite una personalización de voz flexible utilizando datos ligeros de texto a voz (TTS), lo que reduce significativamente el costo de desarrollar agentes conversacionales personalizados. Interacción nativa Full-Duplex: la variante Covo-Audio-Chat-FD admite escuchar y hablar simultáneamente. Utiliza tokens arquitectónicos específicos (THINK, SHIFT y BREAK) para gestionar dinámicas complejas en tiempo real, como turnos fluidos, backchanneling e irrupciones de usuarios. Eficiencia de parámetros superior: a pesar de su escala compacta 7B, Covo-Audio logra un rendimiento de vanguardia o altamente competitivo en los principales puntos de referencia, incluidos MMAU, MMSU y URO-Bench. Con frecuencia iguala o supera el rendimiento de sistemas mucho más grandes, como los modelos de parámetros 32B, en tareas de comprensión de audio y voz.

Consulte el documento, el modelo en HF y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.