¿Cómo puede la edición de voz volverse tan directa y controlable como simplemente reescribir una línea de texto? StepFun AI tiene Step-Audio-EditX de código abierto, un modelo de audio basado en LLM de parámetros 3B que convierte la edición de voz expresiva en una operación similar a un texto a nivel simbólico, en lugar de una tarea de procesamiento de señales a nivel de forma de onda.
¿Por qué a los desarrolladores les importa el TTS controlable?
La mayoría de los sistemas TTS de disparo cero copian la emoción, el estilo, el acento y el timbre directamente de un breve audio de referencia. Pueden parecer naturales, pero el control es débil. Las indicaciones de estilo en el texto solo ayudan a las voces del dominio, y la voz clonada a menudo ignora la emoción o el estilo de habla solicitados.
Trabajos anteriores intentan desenmarañar factores con codificadores adicionales, pérdidas adversas o arquitecturas complejas. Step-Audio-EditX mantiene una representación relativamente entrelazada y, en cambio, cambia los datos y el objetivo posterior al entrenamiento. El modelo aprende a controlar al ver muchos pares y tripletes donde el texto es fijo, pero un atributo cambia con un margen grande.
Arquitectura, tokenizador de libro de códigos dual más LLM de audio compacto
Step-Audio-EditX reutiliza el tokenizador de libro de códigos dual de Step-Audio. El habla se asigna a dos flujos simbólicos, un flujo lingüístico a 16,7 Hz con un libro de códigos de 1024 entradas y un flujo semántico a 25 Hz con un libro de códigos de 4096 entradas. Los tokens están intercalados en una proporción de 2 a 3. El tokenizador mantiene información de prosodia y emoción, por lo que no se desenreda por completo.
Además de este tokenizador, el equipo de investigación de StepFun crea un LLM de audio con parámetros 3B. El modelo se inicializa a partir de un LLM de texto y luego se entrena en un corpus combinado con una proporción de 1 a 1 de texto puro y tokens de audio de libro de códigos duales en indicaciones de estilo chat. El LLM de audio lee tokens de texto, tokens de audio o ambos, y siempre genera tokens de audio de libro de códigos duales como salida.
Un decodificador de audio independiente se encarga de la reconstrucción. Un módulo de coincidencia de flujo basado en un transformador de difusión predice espectrogramas Mel a partir de tokens de audio, audio de referencia y una integración de altavoz, y un vocodificador BigVGANv2 convierte los espectrogramas Mel en formas de onda. El módulo de coincidencia de flujo se entrena con aproximadamente 200.000 horas de habla de alta calidad, lo que mejora la pronunciación y la similitud del timbre.
Datos sintéticos de gran margen en lugar de codificadores complicados
La idea clave es el aprendizaje de amplio margen. El modelo se entrena posteriormente en tripletes y cuatrillizos que mantienen el texto fijo y cambian solo un atributo con un espacio claro.
Para TTS de disparo cero, Step-Audio-EditX utiliza un conjunto de datos interno de alta calidad, principalmente chino e inglés, con una pequeña cantidad de cantonés y sichuanés, y alrededor de 60.000 hablantes. Los datos cubren una amplia variación intra e interhablante en estilo y emoción. (arXiv)
Para la edición de emociones y estilos de habla, el equipo crea tripletes sintéticos de grandes márgenes (texto, audio neutro, emoción o estilo de audio). Los actores de voz graban clips de unos 10 segundos para cada emoción y estilo. La clonación de StepTTS zero shot produce versiones neutrales y emocionales para el mismo texto y hablante. Un modelo de puntuación de márgenes, entrenado en un pequeño conjunto humano etiquetado, puntúa pares en una escala de 1 a 10 y solo se conservan muestras con una puntuación de al menos 6.
La edición paralingüística, que cubre la respiración, la risa, las pausas completas y otras etiquetas, utiliza una estrategia semisintética además del conjunto de datos NVSpeech. El equipo de investigación crea cuatrillizos donde el objetivo es el audio y la transcripción originales de NVSpeech, y la entrada es una versión clonada con etiquetas eliminadas del texto. Esto brinda supervisión de edición en el dominio del tiempo sin un modelo de margen.
Los datos de aprendizaje por refuerzo utilizan dos fuentes de preferencia. Los anotadores humanos califican a 20 candidatos por pregunta en una escala de 5 puntos en cuanto a corrección, prosodia y naturalidad, y se mantienen los pares con un margen superior a 3. Un modelo de comprensión califica la emoción y el estilo de hablar en una escala de 1 a 10, y se mantienen los pares con margen superior a 8.
Después de la capacitación, SFT más PPO en secuencias de tokens
La capacitación posterior tiene dos etapas: ajuste fino supervisado seguido de PPO.
En el ajuste fino supervisado, las indicaciones del sistema definen TTS de disparo cero y tareas de edición en un formato de chat unificado. Para TTS, la forma de onda del mensaje se codifica en tokens de libro de códigos duales, se convierte en forma de cadena y se inserta en el mensaje del sistema como información del hablante. El mensaje del usuario es el texto de destino y el modelo devuelve nuevos tokens de audio. Para editar, el mensaje del usuario incluye tokens de audio originales más una instrucción en lenguaje natural, y el modelo genera tokens editados.
El aprendizaje por refuerzo luego refina la instrucción siguiente. Se inicializa un modelo de recompensa 3B desde el punto de control SFT y se entrena con la pérdida de Bradley Terry en pares de preferencia de margen grande. La recompensa se calcula directamente en secuencias de tokens de libro de códigos duales, sin decodificarlas en forma de onda. La capacitación de PPO utiliza este modelo de recompensa, un umbral de recorte y una penalización de KL para equilibrar la calidad y la desviación de la política SFT.
Paso-Audio-Editar-Prueba, edición iterativa y generalización
Para cuantificar el control, el equipo de investigación introdujo Step-Audio-Edit-Test. Utiliza Gemini 2.5 Pro como LLM como juez para evaluar las emociones, el estilo de hablar y la precisión paralingüística. El punto de referencia tiene 8 hablantes, provenientes de Wenet Speech4TTS, GLOBE V2 y Libri Light, con 4 hablantes por idioma.
El conjunto de emociones tiene 5 categorías con 50 indicaciones en chino y 50 en inglés por categoría. El conjunto de estilos de habla tiene 7 estilos con 50 indicaciones por idioma y por estilo. El conjunto paralingüístico tiene 10 etiquetas, como respiración, risa, sorpresa, oh y uhm, con 50 indicaciones por etiqueta y idioma.
La edición se evalúa de forma iterativa. La iteración 0 es el clon inicial de disparo cero. Luego, el modelo aplica 3 rondas de edición con instrucciones de texto. En chino, la precisión de las emociones aumenta de 57,0 en la iteración 0 a 77,7 en la iteración 3. La precisión del estilo de habla aumenta de 41,6 a 69,2. El inglés muestra un comportamiento similar, y una ablación fija rápida, donde se utiliza el mismo audio rápido para todas las iteraciones, aún mejora la precisión, lo que respalda la hipótesis de aprendizaje de margen grande.
El mismo modelo de edición se aplica a cuatro sistemas TTS de código cerrado: GPT 4o mini TTS, ElevenLabs v2, Doubao Seed TTS 2.0 y MiniMax Speech 2.6 HD. Para todos ellos, una iteración de edición con Step-Audio-EditX mejora tanto la emoción como la precisión del estilo, y las iteraciones posteriores siguen ayudando.
La edición paralingüística se califica en una escala de 1 a 3. La puntuación media aumenta de 1,91 en la iteración 0 a 2,89 después de una única edición, tanto en chino como en inglés, lo que es comparable a la síntesis paralingüística nativa en sistemas comerciales sólidos.
Conclusiones clave
Step Audio EditX utiliza un tokenizador de libro de códigos dual y un LLM de audio de parámetros 3B para que pueda tratar la voz como tokens discretos y editar audio como si fuera un texto. El modelo se basa en datos sintéticos de gran margen sobre emociones, estilo de habla, señales paralingüísticas, velocidad y ruido, en lugar de agregar codificadores adicionales para desenredar. El ajuste fino supervisado más PPO con un modelo de recompensa a nivel de token alinea el LLM de audio para seguir instrucciones de edición en lenguaje natural tanto para TTS como para tareas de edición. El punto de referencia Step Audio Edit Test con Gemini 2.5 Pro como juez muestra claras ganancias en precisión en 3 iteraciones de edición para emoción, estilo y control paralingüístico tanto en chino como en inglés. Step Audio EditX puede publicar, procesar y mejorar la voz desde sistemas TTS de código cerrado, y la pila completa, incluido el código y los puntos de control, está disponible como código abierto para los desarrolladores.
Step Audio EditX es un paso adelante preciso en la síntesis de voz controlable, porque mantiene el tokenizador Step Audio, agrega un LLM de audio 3B compacto y optimiza el control a través de datos de gran margen y PPO. La introducción de Step Audio Edit Test con Gemini 2.5 Pro como juez hace que la historia de evaluación sea concreta en cuanto a emoción, estilo de habla y control paralingüístico, y la versión abierta reduce la barrera para la investigación práctica de edición de audio. En general, esta versión hace que la edición de audio se parezca mucho más a la edición de texto.
Consulte los pesos de papel, repositorio y modelo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.