Conozca ‘Kani-TTS-2’: un modelo de conversión de texto a voz de código abierto de 400 M de parámetros que se ejecuta en 3 GB de VRAM con soporte para clonación de voz




El panorama del audio generativo está cambiando hacia la eficiencia. El equipo de nineninesix.ai ha lanzado un nuevo contendiente de código abierto, Kani-TTS-2. Este modelo marca una desviación de los sistemas TTS pesados ​​y costosos en computación. En cambio, trata el audio como un lenguaje y ofrece síntesis de voz de alta fidelidad con un tamaño notablemente pequeño.

Kani-TTS-2 ofrece una alternativa sencilla y de alto rendimiento a las API de código cerrado. Actualmente está disponible en Hugging Face en versiones en inglés (EN) y portugués (PT).

La arquitectura: LFM2 y NanoCodec

Kani-TTS-2 sigue la filosofía del “audio como lenguaje”. El modelo no utiliza canales de espectrograma de mel tradicionales. En cambio, convierte audio sin procesar en tokens discretos utilizando un códec neuronal.

El sistema se basa en un proceso de dos etapas:

La columna vertebral del lenguaje: el modelo se basa en la arquitectura LFM2 (350M) de LiquidAI. Esta red troncal genera una “intención de audio” al predecir los siguientes tokens de audio. Debido a que los LFM (modelos de base líquida) están diseñados para brindar eficiencia, brindan una alternativa más rápida a los transformadores estándar. El códec neuronal: utiliza el NanoCodec de NVIDIA para convertir esos tokens en formas de onda de 22 kHz.

Al utilizar esta arquitectura, el modelo captura una prosodia similar a la humana (el ritmo y la entonación del habla) sin los artefactos “robóticos” que se encuentran en los sistemas TTS más antiguos.

Eficiencia: 10.000 horas en 6 horas

Las métricas de entrenamiento para Kani-TTS-2 son una clase magistral de optimización. El modelo inglés se entrenó con 10.000 horas de datos de voz de alta calidad.

Si bien esa escala es impresionante, la velocidad del entrenamiento es la verdadera historia. El equipo de investigación entrenó el modelo en sólo 6 horas utilizando un grupo de 8 GPU NVIDIA H100. Esto demuestra que los conjuntos de datos masivos ya no requieren semanas de tiempo de computación cuando se combinan con arquitecturas eficientes como LFM2.

Clonación y rendimiento de voz Zero-Shot

La característica más destacada para los desarrolladores es la clonación de voz cero. A diferencia de los modelos tradicionales que requieren ajustes para nuevas voces, Kani-TTS-2 utiliza altavoces integrados.

Cómo funciona: proporciona un breve clip de audio de referencia. El resultado: el modelo extrae las características únicas de esa voz y las aplica al texto generado instantáneamente.

Desde una perspectiva de implementación, el modelo es muy accesible:

Recuento de parámetros: 400 M (0,4 B) parámetros. Velocidad: Cuenta con un factor de tiempo real (RTF) de 0,2. Esto significa que puede generar 10 segundos de voz en aproximadamente 2 segundos. Hardware: Requiere solo 3 GB de VRAM, lo que lo hace compatible con GPU de consumo como RTX 3060 o 4050. Licencia: Publicada bajo la licencia Apache 2.0, lo que permite el uso comercial.

Conclusiones clave

Arquitectura eficiente: el modelo utiliza una columna vertebral de parámetros de 400M basada en LFM2 (350M) de LiquidAI. Este enfoque de ‘audio como lenguaje’ trata el habla como tokens discretos, lo que permite un procesamiento más rápido y una entonación más humana en comparación con las arquitecturas tradicionales. Entrenamiento rápido a escala: Kani-TTS-2-EN se entrenó con 10 000 horas de datos de voz de alta calidad en solo 6 horas utilizando 8 GPU NVIDIA H100. Clonación instantánea Zero-Shot: no es necesario realizar ajustes para replicar una voz específica. Al proporcionar un breve clip de audio de referencia, el modelo utiliza incrustaciones de altavoces para sintetizar instantáneamente texto en la voz del hablante objetivo. Alto rendimiento en hardware perimetral: con un factor de tiempo real (RTF) de 0,2, el modelo puede generar 10 segundos de audio en aproximadamente 2 segundos. Requiere solo 3 GB de VRAM, lo que lo hace completamente funcional en GPU de consumo como la RTX 3060. Licencia amigable para desarrolladores: Lanzado bajo la licencia Apache 2.0, Kani-TTS-2 está listo para la integración comercial. Ofrece una alternativa de baja latencia y prioridad local a las costosas API TTS de código cerrado.

Consulte el peso del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.







Artículo anteriorComenzando con OpenClaw y conectándolo con WhatsApp