Chroma 1.0 es un modelo de diálogo de voz a voz en tiempo real que toma audio como entrada y devuelve audio como salida mientras preserva la identidad del hablante en conversaciones de varios turnos. Se presenta como el primer sistema de diálogo hablado de extremo a extremo de código abierto que combina interacción de baja latencia con clonación de voz personalizada de alta fidelidad a partir de sólo unos segundos de audio de referencia.
El modelo opera directamente sobre representaciones de voz discretas en lugar de transcripciones de texto. Se dirige a los mismos casos de uso que los agentes comerciales en tiempo real, pero con un núcleo de diálogo de parámetros compacto 4B y un diseño que trata la similitud de los hablantes como un objetivo principal, no como una característica auxiliar. Chroma logra una mejora relativa del 10,96 % en la similitud de los hablantes con respecto a una base humana y alcanza un factor de tiempo real (RTF) de 0,43, por lo que puede generar voz más de 2 veces más rápido que la reproducción.
Desde ASR en cascada ➡️ LLM ➡️ TTS ➡️ S2S de extremo a extremo
La mayoría de los asistentes de producción todavía utilizan un proceso de tres etapas, reconocimiento automático de voz para convertir audio en texto, un modelo de lenguaje grande para el razonamiento y síntesis de texto a voz. Esta estructura es flexible pero introduce latencia y pierde información paralingüística como timbre, emoción, velocidad de habla y prosodia una vez que el sistema colapsa el audio en texto. En el diálogo en tiempo real, esta pérdida de detalle acústico perjudica directamente la fidelidad y naturalidad del hablante.
Chroma sigue la clase más nueva de sistemas de voz a voz que se asignan entre secuencias de tokens de códec. Un tokenizador de voz y un códec neuronal producen códigos acústicos cuantificados. Luego, un modelo de lenguaje razona y responde sobre una secuencia que entrelaza tokens de texto y códigos de audio, sin una transcripción intermedia explícita. Esto mantiene el modelo condicionado a la prosodia y la identidad del hablante durante toda la cadena de procesamiento.
Arquitectura, pila de generación de voz Reasoner +
Chroma 1.0 tiene dos subsistemas principales. Chroma Reasoner maneja la comprensión multimodal y la generación de texto. La pila de voz, Chroma Backbone, Chroma Decoder y Chroma Codec Decoder, convierte esa salida semántica en audio de respuesta personalizada.
Chroma Reasoner se basa en el módulo Thinker de la serie Qwen-omni y utiliza el canal de codificación de audio Qwen2. Procesa entradas de texto y audio con interfaces compartidas, las fusiona con atención multimodal y las alinea a lo largo del tiempo utilizando la incrustación de posición rotativa multimodal alineada en el tiempo (TM-RoPE). El resultado es una secuencia de estados ocultos que contienen tanto contenido lingüístico como señales acústicas, por ejemplo, ritmo y énfasis.
Chroma Backbone es un modelo de estilo LLaMA de parámetro 1B basado en Llama3. Está condicionado a la voz de destino mediante CSM-1B, que codifica un breve clip de audio de referencia y su transcripción en indicaciones integradas que se anteponen a la secuencia. Durante la inferencia, las incrustaciones de tokens y los estados ocultos del Reasoner se alimentan como contexto unificado, por lo que Backbone siempre ve el estado semántico del diálogo mientras genera códigos acústicos.
Para admitir la transmisión por secuencias, el sistema utiliza un horario de intercalado fijo de 1 a 2. Por cada token de texto del Reasoner, Backbone produce 2 tokens de código de audio. Esto permite que el modelo comience a emitir voz tan pronto como comienza la generación del texto y evita esperar oraciones completas. Este entrelazado es el mecanismo principal detrás del bajo tiempo hasta el primer token.
El Chroma Decoder es una variante ligera de LLaMA con alrededor de 100 millones de parámetros. Backbone predice sólo el primer libro de códigos de cuantificación de vector residual por cuadro, que es una representación aproximada. Luego, el decodificador toma el estado oculto de Backbone y el primer código y predice de forma autorregresiva los niveles RVQ restantes dentro del mismo marco. Esta factorización mantiene una estructura temporal de contexto larga en Backbone y restringe el decodificador al refinamiento local del marco, lo que reduce el cálculo y mejora la prosodia y la articulación detalladas.
El Chroma Codec Decoder concatena los códigos gruesos y refinados y los asigna a muestras de formas de onda. Sigue el diseño del decodificador del codificador de voz Mimi y utiliza una red neuronal convolucional causal para que cada muestra de salida dependa únicamente del contexto pasado, que es necesario para la transmisión. El sistema utiliza 8 libros de códigos, lo que reduce la cantidad de pasos de refinamiento autorregresivos para el decodificador y al mismo tiempo conserva suficientes detalles para la clonación de voz.
Configuración de entrenamiento y datos sintéticos de voz a voz (S2S)
Los datos de diálogos de voz de alta calidad con fuertes señales de razonamiento son escasos. Por lo tanto, Chroma utiliza una canalización sintética de voz a voz (S2S). Un Reasoner como LLM primero produce respuestas textuales para las preguntas de los usuarios. Luego, un sistema Test to Speech (TTS) sintetiza el habla objetivo que coincide con el timbre del audio de referencia para esas respuestas. Estos pares sintéticos entrenan a Backbone y Decoder para realizar modelado acústico y clonación de voz. El Reasoner permanece congelado y actúa como proveedor de incrustaciones de texto y estados ocultos multimodales.
Calidad de clonación de voz y comparación con sistemas existentes.
La evaluación objetiva utiliza el protocolo SEED-TTS-EVAL en hablantes de inglés CommonVoice. Chroma opera a una frecuencia de muestreo de 24 kHz y logra una puntuación de similitud de altavoz de 0,81. La línea de base humana es 0,73. CosyVoice-3 alcanza 0,72 y la mayoría de las otras líneas de base de TTS se encuentran por debajo de la referencia humana. El equipo de investigación informa que esto es una mejora relativa del 10,96 % con respecto a la línea de base humana, lo que indica que el modelo captura detalles paralingüísticos finos de manera más consistente que las grabaciones humanas en esta métrica.
La evaluación subjetiva compara Chroma con el modelo eleven_multilingual_v2 de ElevenLabs. En CMOS de naturalidad, los oyentes prefieren ElevenLabs el 57,2% del tiempo frente al 24,4% de Chroma, con un 18,3%. En similitud de altavoces CMOS, las puntuaciones son muy cercanas, 42,4% para ElevenLabs y 40,6% para Chroma, con un 17,0% dos. Una prueba de seguimiento que pregunta qué audio suena más natural entre ElevenLabs y las grabaciones originales arroja un 92,0% de preferencia por ElevenLabs frente a un 8,0% por la verdad básica, lo que muestra que la naturalidad percibida y la fidelidad del hablante no están alineadas.
Latencia y comportamiento en tiempo real.
La latencia se mide con una transmisión simultánea. Para una respuesta de 38,80 segundos, el tiempo total de generación es de 16,58 segundos, lo que da un factor de tiempo real (RTF) de 0,43. El Reasoner aporta 119,12 ms TTFT, el Backbone 8,48 ms y el Decoder 19,27 ms por cuadro en promedio. El Codec Decoder funciona en grupos de 4 fotogramas, por lo que TTFT no se aplica a ese componente. El tiempo total hasta el primer token es de 146,87 ms, muy por debajo de un segundo y adecuado para el diálogo interactivo.
Puntos de referencia de diálogo y razonamiento hablado
Chroma se evalúa en la pista básica de URO Bench. Utiliza sólo parámetros 4B pero logra una puntuación general de realización de tareas del 57,44%. GLM-4 Voice, un modelo de parámetros 9B, lidera con un 69,09%. Chroma ocupa el segundo lugar en general y supera a varias líneas de base omnidireccionales 7B y 0,5B en muchas dimensiones. Alcanza el 71,14% en Storal, el 51,69% en TruthfulQA y el 22,74% en GSM8K. En cuanto a las métricas de conversación oral, obtiene las puntuaciones más altas en MLC con un 60,26 % y en CommonVoice con un 62,07 %.
Fundamentalmente, Chroma es el único modelo en esta comparación que admite la clonación de voz personalizada. Todos los demás sistemas se centran únicamente en el diálogo hablado y el razonamiento. Esto significa que Chroma proporciona una capacidad cognitiva competitiva y al mismo tiempo realiza una personalización de voz de alta fidelidad en tiempo real.
Conclusiones clave
Habla a voz en tiempo real de extremo a extremo: Chroma 1.0 es un modelo de diálogo hablado con parámetros 4B que asigna voz a voz directamente usando tokens de códec, evita etapas explícitas de ASR y TTS y preserva la prosodia y la identidad del hablante a lo largo de todo el proceso. Arquitectura de pila de voz Reasoner plus: el sistema combina un Chroma Reasoner basado en Qwen con una columna vertebral estilo LLaMA 1B, un decodificador Chroma 100M y un decodificador de códec basado en Mimi, utiliza libros de códigos RVQ y una programación de tokens de texto a audio entrelazados de 1 a 2 para admitir la transmisión y un tiempo bajo hasta el primer token. Fuerte clonación de voz personalizada: en SEED-TTS-EVAL con parlantes CommonVoice, Chroma alcanza una puntuación de similitud de altavoz de 0,81 a 24 kHz, lo que se informa como una mejora relativa del 10,96 por ciento sobre la línea de base humana de 0,73 y supera a CosyVoice 3 y otras líneas de base de TTS. Latencia inferior a un segundo y más rápida que la generación en tiempo real: la inferencia de flujo único en una GPU H200 produce un tiempo general hasta el primer token de aproximadamente 147 ms; para una respuesta de 38,80 segundos, el modelo genera audio en 16,58 segundos, lo que da como resultado un factor de tiempo real de 0,43, que es más de 2 veces más rápido que la reproducción. Diálogo y razonamiento competitivo con la clonación como característica única: en la pista básica de URO Bench, Chroma logra un 57,44 por ciento de logro general de tareas y puntuaciones competitivas en Storal, TruthfulQA, GSM8K, MLC y CommonVoice.
Consulte el papel, los pesos de los modelos, el proyecto y el patio de juegos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.