Supertone lanza Supertonic v3: modelo de conversión de texto a voz en el dispositivo con soporte para 31 idiomas, menos errores de lectura y etiquetas de expresión

Supertone lanzó Supertonic 3, la tercera generación de su sistema de texto a voz basado en ONNX en el dispositivo. Supertonic 3 se entrega con soporte para 31 idiomas, precisión de lectura mejorada, menos fallas de repetición y omisión y activos ONNX públicos compatibles con v2. Es un TTS ultrarrápido, en el dispositivo, multilingüe y preciso.

Qué cambió de v2 a v3

En comparación con Supertonic 2, Supertonic 3 reduce las fallas de repetición y omisión, mejora la similitud de los hablantes en todo el conjunto de idiomas compartidos y amplía la cobertura de idiomas de 5 a 31 idiomas. La versión 2 admitía inglés, coreano, español, portugués y francés. La versión 3 agrega japonés, árabe, búlgaro, checo, danés, alemán, griego, estonio, finlandés, croata, húngaro, indonesio, italiano, lituano, letón, holandés, polaco, rumano, ruso, eslovaco, esloveno, sueco, turco, ucraniano y vietnamita: 31 códigos de idioma ISO en total. También hay un respaldo especial para texto cuyo idioma es desconocido o está fuera del conjunto admitido.

El modelo crece modestamente para adaptarse a los idiomas añadidos. Con aproximadamente 99 millones de parámetros en todos los activos públicos de ONNX, Supertonic 3 es mucho más pequeño que los sistemas TTS abiertos de clase 0,7B a 2B. El tamaño más pequeño del modelo es una ventaja práctica para el tamaño de descarga, el tiempo de inicio y la inferencia en el dispositivo. La actualización también eleva la huella total de disco de los activos públicos de ONNX a 404 MB. Además, Supertone lanzó recientemente Voice Builder, que permite a los desarrolladores crear modelos TTS personalizados y nativos a partir de sus propias grabaciones de voz.

Una nueva capacidad en la versión 3 que no estaba presente en la versión 2 es la compatibilidad con etiquetas expresivas. Supertonic 3 admite etiquetas de expresión simples como , y . Estos le permiten incrustar señales prosódicas directamente en el texto de entrada sin un paso de preprocesamiento separado o un modelo separado para la expresividad. Para los ingenieros que crean interfaces de voz o herramientas de accesibilidad, esto significa que pueden especificar pausas para respirar o risas en línea en su carga útil de texto.

Arquitectura y tiempo de ejecución

La arquitectura subyacente se conserva de versiones anteriores: un codificador automático de voz que codifica formas de onda en representaciones latentes continuas, un módulo de texto a latente basado en coincidencia de flujo que asigna texto a funciones de audio y un predictor de duración que controla la sincronización natural. La coincidencia de flujo es una técnica de modelado generativo que aprende un campo vectorial para transformar una distribución simple en una distribución objetivo; toma muestras más rápido que los modelos de difusión con recuentos de pasos bajos, razón por la cual Supertonic puede producir resultados utilizables en solo 2 pasos de inferencia. Para refinar aún más la salida, v3 integra la incrustación de posición giratoria con reconocimiento de longitud (LARoPE) para una alineación superior del texto y la voz y utiliza una técnica de coincidencia de flujo autopurificante durante el entrenamiento para permanecer robusto contra etiquetas de datos ruidosas.

En cuanto a la eficiencia del tiempo de ejecución, Supertonic 3 se ejecuta rápido en la CPU, incluso en comparación con líneas base más grandes medidas en la GPU A100, y utiliza sustancialmente menos memoria. No requiere una GPU, lo que facilita mucho la implementación local, del navegador y del borde.

Precisión de lectura

En todos los lenguajes medidos, Supertonic 3 se mantiene dentro de un rango WER/CER competitivo frente a modelos TTS abiertos mucho más grandes, como VoxCPM2, al tiempo que conserva una ruta de implementación liviana en el dispositivo. WER (tasa de error de palabras) y CER (tasa de error de caracteres) son métricas de legibilidad de TTS estándar: usted sintetiza un pasaje, ejecuta ASR sobre la salida y compara la transcripción con el texto original. CER se utiliza para idiomas sin límites claros de palabras; los demás usan WER. La eficiencia del sistema se demuestra mejor en hardware de vanguardia; logra un RTF promedio de 0,3x en un Onyx Boox Go 6 (un lector electrónico de tinta electrónica) en modo avión. Además, el ecosistema se ha ampliado para incluir Flutter (con soporte para macOS), .NET 9 y Go, mientras que la implementación web aprovecha onnxruntime-web para la ejecución pura del lado del cliente.

Normalización de texto

Una propiedad diferenciadora trasladada de la versión 2 es la normalización de texto incorporada. Supertonic maneja formas superficiales complejas: expresiones financieras como $5,2 millones, números de teléfono con códigos de área y extensiones como (212) 555-0142 ext. 402, formatos de fecha y hora como las 4:45 p. m. del miércoles 3 de abril de 2024 y unidades técnicas como 2,3 h y 30 km/h, sin ningún canal de preprocesamiento ni anotaciones fonéticas. La expresión financiera “$5,2 millones” debe leerse como “cinco coma dos millones de dólares” y “$450K” como “cuatrocientos cincuenta mil dólares”. Los cuatro sistemas competidores fracasaron en esto. La unidad técnica “2,3h” debe leerse como “dos coma tres horas” y “30kph” como “treinta kilómetros por hora”. Los cuatro competidores también fracasaron en esta categoría. Los sistemas competidores evaluados incluyen ElevenLabs Flash v2.5, OpenAI TTS-1, Gemini 2.5 Flash TTS y Microsoft.

https://github.com/supertone-inc/supertonic

Empezando

La instalación del SDK de Python es pip install supertonic. En la primera ejecución, el SDK descarga automáticamente los recursos del modelo de Hugging Face. Un ejemplo mínimo:

from supertonic import TTS tts = TTS(auto_download=True) style = tts.get_voice_style(voice_name=”M1″) text = “Una suave brisa se movía a través de la ventana abierta mientras todos escuchaban la historia.” wav, duración = tts.synthesize(text, voice_style=style, lang=”en”) tts.save_audio(wav, “output.wav”) print(f”{duración:.2f}s de audio generados”)

Explicador visual de Marktechpost

1/7

Descripción general

Supertonic 3: TTS en el dispositivo,
Ahora en 31 idiomas

Supertonic 3 es un sistema de texto a voz ligero y abierto de Supertone Inc. Se ejecuta completamente a través de ONNX Runtime en su dispositivo: sin nube, sin llamadas API, sin datos que salen de su máquina. v3 se expande de 5 a 31 idiomas, agrega etiquetas expresivas, reduce los errores de lectura y sigue siendo compatible con la interfaz ONNX v2.

31
Idiomas

~99M
Parámetros

404 megas
Activos ONNX

MIT
Licencia de código

Novedades de la v3

Cuatro mejoras principales con respecto a Supertonic 2

La versión 3 es una actualización enfocada: el mismo contrato de inferencia, resultados significativamente mejores.

🌐
31 idiomas: ampliado desde la versión v2 de 5 idiomas (en, ko, es, pt, fr). Ahora incluye japonés, árabe, alemán, hindi, ruso, turco, vietnamita y 20 códigos ISO más, además de una reserva especial para idiomas desconocidos.


Lectura más estable: menos repeticiones y omisiones, especialmente en expresiones cortas y largas. Esta era una limitación conocida en la versión 2 que la versión 3 aborda directamente.

🎭
Etiquetas de expresión: admite , y en línea en el texto, sin ningún preprocesamiento independiente ni modelo externo.

🔊
Mayor similitud de hablantes: similitud mejorada en todo el conjunto de idiomas compartidos en comparación con Supertonic 2. Las voces son más consistentes en todos los idiomas.

Instalación

Ponte a correr en menos de un minuto

Instale el SDK de Python mediante pip. En la primera ejecución, los recursos del modelo se descargan automáticamente desde Hugging Face; no se requiere configuración manual.

instalación de pip supertónica

Instalar el SDK

Ejecute pip install supertonic en su entorno Python (Python 3.8+).

Primera ejecución: descarga automática

En el primer uso, TTS(auto_download=True) recupera los activos del modelo ONNX (~404 MB) de Supertone/supertonic-3 en Hugging Face. Requiere Git LFS.

Toda la inferencia se ejecuta en el dispositivo

Después de la descarga inicial, no se necesita conexión a Internet. Toda la síntesis se realiza localmente a través de ONNX Runtime.

Inicio rápido

Uso básico de Python

El SDK descarga automáticamente los recursos del modelo en la primera ejecución. Especifique una voz, pase su texto con un código de idioma y guarde la salida WAV.

de supertónico importar tts

# Descargas automáticas de activos de ONNX en la primera ejecución
tts = tts(descarga_automática=Verdadero)

# Seleccione una voz preestablecida (M1—M5 masculina, F1—F5 femenina)
estilo = tts.get_voice_style(nombre_voz=“M1”) texto = “Una suave brisa entraba por la ventana abierta.”

# sintetizar() devuelve (wav_array, duración_en_segundos)
wav, duración = tts.sintetizar(texto, estilo_voz=estilo, idioma=“es”) tts.guardar_audio(salud, “salida.wav”)
imprimir(F“Generado {duración:.2f}s de audio”)

texto = “¡No puedo creer que realmente haya funcionado!”
wav, duración = tts.sintetizar(texto, estilo_voz=estilo, idioma=“es”)

Idiomas

31 idiomas admitidos + sin respaldo

Los 31 lenguajes comparten la misma arquitectura modelo y canal de inferencia ONNX. Utilice el código na para texto cuyo idioma sea desconocido o esté fuera del conjunto admitido.

es Inglés

ko coreano

ja japonés

Arkansas árabe

bg búlgaro

cs checo

da danés

Delaware Alemán

el Griego

es Español

y estonio

fi finlandés

fr Francés

Hola hindi

hora croata

eh húngaro

identificación indonesio

él italiano

es lituano

lv letón

nl Holandés

sustantivo, masculino, plural— Polaco

pt portugués

ro rumano

ru ruso

sk eslovaco

SL esloveno

sv sueco

tr turco

reino unido ucranio

vi vietnamita

Normalización de texto

Maneja entradas complejas sin preprocesamiento

Supertonic 3 lee correctamente expresiones financieras, fechas, números de teléfono y unidades técnicas desde el primer momento, sin necesidad de módulo G2P ni anotaciones fonéticas. Abajo: Supertonic frente a cuatro principales sistemas comerciales/de código abierto.

Ejemplo de entrada de categoría Supertonic 3 ElevenLabs / OpenAI / Gemini / Microsoft Financial Expression
5,2 millones de dólares / 450.000 dólares

Los cuatro fallaron en hora y fecha
16:45 miércoles 3 de abril

Los cuatro números de teléfono fallidos
(212) 555-0142 extensión. 402

Las cuatro unidades técnicas fallidas
2,3 h a 30 km/h

Los cuatro fallaron

Implementación y recursos

Funciona en todas partes: 11 plataformas, no se requiere GPU

Los activos públicos de ONNX se ejecutan en la CPU en modo de voz fija sin dependencia de la GPU. La compatibilidad con el navegador se realiza a través de WebGPU y WASM a través de onnxruntime-web. La salida de audio es WAV de 16 bits; Se admite la inferencia por lotes.

🐍PitónTiempo de ejecución de ONNX

🟨Nodo.jsJS del lado del servidor

🌐NavegadorWebGPU/WASM

JavaJVM

⚙️C++Alto rendimiento

🔷DO#.NETO

🔵IrIr al tiempo de ejecución

🍎Rápido / iOSNativo

🦀ÓxidoSistemas

💙AleteoMultiplataforma

📄Código: MITLicencia

🤖Modelo: OpenRAIL-MLicencia

Conclusiones clave

Supertonic 3 amplía el soporte de idiomas de 5 (v2) a 31 idiomas, creciendo de 66 millones a ~99 millones de parámetros con un tamaño total de activos ONNX de 404 MB. Nuevo en v3: etiquetas expresivas (,,), lectura más estable en expresiones cortas y largas y similitud mejorada del hablante frente a la interfaz pública ONNX compatible con v2 v2: las integraciones existentes se actualizan sin cambiar el código de inferencia. Precisión de lectura comparada con VoxCPM2; v3 se mantiene dentro de un rango WER/CER competitivo aunque es sustancialmente más pequeño. No se han publicado números de RTF/rendimiento específicos de v3; la cifra 167 veces más rápida que en tiempo real es un punto de referencia de la versión 2 y no debe asumirse que es idéntica para la versión 3. Salida nativa de archivos WAV de 16 bits que garantizan audio de alta fidelidad para aplicaciones de ingeniería.

Consulte GitHub Repo y Hugging Face Space. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros