Supertone lanzó Supertonic 3, la tercera generación de su sistema de texto a voz basado en ONNX en el dispositivo. Supertonic 3 se entrega con soporte para 31 idiomas, precisión de lectura mejorada, menos fallas de repetición y omisión y activos ONNX públicos compatibles con v2. Es un TTS ultrarrápido, en el dispositivo, multilingüe y preciso.
Qué cambió de v2 a v3
En comparación con Supertonic 2, Supertonic 3 reduce las fallas de repetición y omisión, mejora la similitud de los hablantes en todo el conjunto de idiomas compartidos y amplía la cobertura de idiomas de 5 a 31 idiomas. La versión 2 admitía inglés, coreano, español, portugués y francés. La versión 3 agrega japonés, árabe, búlgaro, checo, danés, alemán, griego, estonio, finlandés, croata, húngaro, indonesio, italiano, lituano, letón, holandés, polaco, rumano, ruso, eslovaco, esloveno, sueco, turco, ucraniano y vietnamita: 31 códigos de idioma ISO en total. También hay un respaldo especial para texto cuyo idioma es desconocido o está fuera del conjunto admitido.
El modelo crece modestamente para adaptarse a los idiomas añadidos. Con aproximadamente 99 millones de parámetros en todos los activos públicos de ONNX, Supertonic 3 es mucho más pequeño que los sistemas TTS abiertos de clase 0,7B a 2B. El tamaño más pequeño del modelo es una ventaja práctica para el tamaño de descarga, el tiempo de inicio y la inferencia en el dispositivo. La actualización también eleva la huella total de disco de los activos públicos de ONNX a 404 MB. Además, Supertone lanzó recientemente Voice Builder, que permite a los desarrolladores crear modelos TTS personalizados y nativos a partir de sus propias grabaciones de voz.
Una nueva capacidad en la versión 3 que no estaba presente en la versión 2 es la compatibilidad con etiquetas expresivas. Supertonic 3 admite etiquetas de expresión simples como , y . Estos le permiten incrustar señales prosódicas directamente en el texto de entrada sin un paso de preprocesamiento separado o un modelo separado para la expresividad. Para los ingenieros que crean interfaces de voz o herramientas de accesibilidad, esto significa que pueden especificar pausas para respirar o risas en línea en su carga útil de texto.
Arquitectura y tiempo de ejecución
La arquitectura subyacente se conserva de versiones anteriores: un codificador automático de voz que codifica formas de onda en representaciones latentes continuas, un módulo de texto a latente basado en coincidencia de flujo que asigna texto a funciones de audio y un predictor de duración que controla la sincronización natural. La coincidencia de flujo es una técnica de modelado generativo que aprende un campo vectorial para transformar una distribución simple en una distribución objetivo; toma muestras más rápido que los modelos de difusión con recuentos de pasos bajos, razón por la cual Supertonic puede producir resultados utilizables en solo 2 pasos de inferencia. Para refinar aún más la salida, v3 integra la incrustación de posición giratoria con reconocimiento de longitud (LARoPE) para una alineación superior del texto y la voz y utiliza una técnica de coincidencia de flujo autopurificante durante el entrenamiento para permanecer robusto contra etiquetas de datos ruidosas.
En cuanto a la eficiencia del tiempo de ejecución, Supertonic 3 se ejecuta rápido en la CPU, incluso en comparación con líneas base más grandes medidas en la GPU A100, y utiliza sustancialmente menos memoria. No requiere una GPU, lo que facilita mucho la implementación local, del navegador y del borde.
Precisión de lectura
En todos los lenguajes medidos, Supertonic 3 se mantiene dentro de un rango WER/CER competitivo frente a modelos TTS abiertos mucho más grandes, como VoxCPM2, al tiempo que conserva una ruta de implementación liviana en el dispositivo. WER (tasa de error de palabras) y CER (tasa de error de caracteres) son métricas de legibilidad de TTS estándar: usted sintetiza un pasaje, ejecuta ASR sobre la salida y compara la transcripción con el texto original. CER se utiliza para idiomas sin límites claros de palabras; los demás usan WER. La eficiencia del sistema se demuestra mejor en hardware de vanguardia; logra un RTF promedio de 0,3x en un Onyx Boox Go 6 (un lector electrónico de tinta electrónica) en modo avión. Además, el ecosistema se ha ampliado para incluir Flutter (con soporte para macOS), .NET 9 y Go, mientras que la implementación web aprovecha onnxruntime-web para la ejecución pura del lado del cliente.
Normalización de texto
Una propiedad diferenciadora trasladada de la versión 2 es la normalización de texto incorporada. Supertonic maneja formas superficiales complejas: expresiones financieras como $5,2 millones, números de teléfono con códigos de área y extensiones como (212) 555-0142 ext. 402, formatos de fecha y hora como las 4:45 p. m. del miércoles 3 de abril de 2024 y unidades técnicas como 2,3 h y 30 km/h, sin ningún canal de preprocesamiento ni anotaciones fonéticas. La expresión financiera “$5,2 millones” debe leerse como “cinco coma dos millones de dólares” y “$450K” como “cuatrocientos cincuenta mil dólares”. Los cuatro sistemas competidores fracasaron en esto. La unidad técnica “2,3h” debe leerse como “dos coma tres horas” y “30kph” como “treinta kilómetros por hora”. Los cuatro competidores también fracasaron en esta categoría. Los sistemas competidores evaluados incluyen ElevenLabs Flash v2.5, OpenAI TTS-1, Gemini 2.5 Flash TTS y Microsoft.
Empezando
La instalación del SDK de Python es pip install supertonic. En la primera ejecución, el SDK descarga automáticamente los recursos del modelo de Hugging Face. Un ejemplo mínimo:
Explicador visual de Marktechpost
Conclusiones clave
Supertonic 3 amplía el soporte de idiomas de 5 (v2) a 31 idiomas, creciendo de 66 millones a ~99 millones de parámetros con un tamaño total de activos ONNX de 404 MB. Nuevo en v3: etiquetas expresivas (,,), lectura más estable en expresiones cortas y largas y similitud mejorada del hablante frente a la interfaz pública ONNX compatible con v2 v2: las integraciones existentes se actualizan sin cambiar el código de inferencia. Precisión de lectura comparada con VoxCPM2; v3 se mantiene dentro de un rango WER/CER competitivo aunque es sustancialmente más pequeño. No se han publicado números de RTF/rendimiento específicos de v3; la cifra 167 veces más rápida que en tiempo real es un punto de referencia de la versión 2 y no debe asumirse que es idéntica para la versión 3. Salida nativa de archivos WAV de 16 bits que garantizan audio de alta fidelidad para aplicaciones de ingeniería.
Consulte GitHub Repo y Hugging Face Space. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros