LLMS ahora puede hablar en tiempo real con una latencia mínima: los investigadores chinos liberan a Llama-OMNI2, un modelo de lenguaje de habla modular escalable

Investigadores del Instituto de Tecnología de la Computación, Academia de Ciencias de China, han introducido Llama-AMNI2una familia de modelos de lenguaje grande con capacidad para el habla (SpeechLMS) ahora disponible en Cara abrazada. Esta investigación introduce un marco modular que permite el diálogo hablado en tiempo real integrando la percepción y la síntesis del habla con la comprensión del lenguaje. A diferencia de los sistemas en cascada anteriores, Llama-OMNI2 opera en una tubería de extremo a extremo mientras conserva la interpretabilidad modular y el bajo costo de capacitación.

Descripción general de la arquitectura Llama-AMNI2

Llama-AMNI2 abarca modelos que varían de parámetros de 0.5b a 14B, cada uno construido sobre la serie Qwen2.5-Instructo. La arquitectura consiste en:

  • Codificador del habla: Utiliza Whisper-Large-V3 para transformar el discurso de entrada en representaciones acústicas de nivel de token.
  • Adaptador de voz: Procesa salidas de codificadores utilizando una capa de muestreo descendente y una red de avance para alinearse con el espacio de entrada del modelo de idioma.
  • Core LLM: Los modelos Qwen2.5 sirven como el principal motor de razonamiento.
  • Transmisión de decodificador TTS: Convierte las salidas LLM en tokens de voz utilizando un transformador autorregresivo y luego genera espectrogramas MEL a través de un modelo de coincidencia de flujo causal inspirado en Cosyvoice2.

Un mecanismo de activación fusiona los estados ocultos con incrustaciones textuales antes de la síntesis del habla, mejorando la fidelidad contextual en el audio generado.

Transmisión de generación con programación de lectura-escritura

El modelo adopta una estrategia de lectura-escritura para facilitar la producción de transmisión. Específicamente, para cada R Tokens producidos por el LLM, W Se generan tokens de habla. Esto permite la generación textual y acústica sincronizada, minimizando la latencia sin comprometer la fluidez.

Los hallazgos empíricos sugieren que la configuración R = 3 y W = 10 proporciona una compensación favorable entre la latencia (~ 583 ms), la alineación (ASR-WER: 3.26) y la calidad perceptiva (UTMOS: 4.19).

Enfoque de entrenamiento

A pesar de alcanzar el rendimiento competitivo, Llama-OMNI2 está entrenado en un corpus relativamente compacto: muestras de diálogo de voz a voz de múltiples vueltas múltiples. Estas muestras se sintetizan a partir de conjuntos de datos de texto con instrucciones (Alpaca, Ultrachat), con diversas voces de entrada y una voz de salida consistente generada con modelos FishSpeech y Cosyvoice2.

La capacitación se ejecuta en dos etapas:

  • Etapa I: Optimiza independientemente los módulos de voz a texto y texto a voz.
  • Etapa II: Ajunes de la ruta de generación de voz a voz, incluidos los componentes de activación y decodificación autorregresivos.

Resultados de referencia

Los modelos se evalúan en la respuesta de las preguntas habladas y la instrucción del habla siguiendo tareas utilizando los modos de voz a texto (S2T) y de voz a voz (S2S).

Modelo Llama Q (S2S) Web Q (S2S) Puntaje GPT-4O Más Latencia (MS)
GLM-4-Voice (9B) 50.7 15.9 4.09 3.48 1562.8
Llama-AMNI (8B) 49.0 23.7 3.52 3.67 346.7
Llama-AMNI2-7B 60.7 31.3 4.15 3.26 582.9

El rendimiento escala consistentemente con el tamaño del modelo. En particular, Llama-AMNI2-14B supera a todas las líneas de base en todas las tareas, incluso con datos de entrenamiento sustancialmente menos que los discursos nativos como GLM-4-Voice.

Análisis de componentes

  • Módulo de fusión de puerta: Eliminar el mecanismo de activación aumenta ASR-más y reduce la calidad del habla, confirmando su papel en la alineación de señales textuales y contextuales.
  • TTS previamente: Inicializar el modelo TTS de Qwen2.5 y el ajuste fino en una configuración de transmisión produce el mejor rendimiento. El entrenamiento desde cero no puede converger de manera efectiva.
  • Estrategias de lectura/escritura: Ajustar la relación R: W afecta la latencia y la calidad. WAST WABTY WECHE UTMOS, pero a costa de retraso de respuesta.

Además, el estudio demuestra que los datos de diálogo de múltiples vueltas son más efectivos que los datos de un solo cambio en las capacidades de interacción del habla de capacitación, y que el rendimiento se vienta de alrededor de 200k muestras.

Conclusión

Llama-AMNI2 demuestra que la interacción hablada de alta calidad y baja latencia con LLM es factible sin la necesidad de una extensión previa de los corpus de habla masiva. Al combinar la arquitectura modular con la síntesis de transmisión autorregresiva, el sistema ofrece una vía práctica para aplicaciones de habla en tiempo real.


Mira el Papel, Modelo en la cara abrazada y Página de Github. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:

Comunidad de Noticias de ML – r/machinelearningnews (92k+ miembros)

Hoja informativa- airesearchinsights.com/(30k+ suscriptores)

Eventos de Minicon AI – minicon.marktechpost.com

Informes de IA y revistas – revista.marktechpost.com

AI Dev & Research News – marktechpost.com (1M+ lectores mensuales)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.