Miso Labs ha lanzado MisoTTS, un modelo de conversión de texto a voz de 8 mil millones de parámetros y peso abierto. Genera discurso expresivo a partir de contexto de texto y audio. El modelo utiliza cuantificación vectorial residual (RVQ) para ampliar su rango sónico. Esto evita escalar un único vocabulario plano mientras se mantiene fijo el recuento de parámetros.
¿Qué es MisoTTS?
MisoTTS es un transformador RVQ de texto a diálogo con 8 parámetros B. Está inspirado en la arquitectura Sesame CSM. Combina una columna vertebral estilo Llama 3.2 con un decodificador de audio más pequeño. Genera códigos de audio Mimi a partir de texto y contexto de audio opcional. El modelo condiciona tanto el texto como el audio anterior. Esa segunda entrada le permite responder al tono del hablante.
El vocabulario de texto es de 128.256 tokens y hay 32 libros de códigos de audio. Mimi es el tokenizador de audio y la longitud máxima de la secuencia es 2048. La inferencia predeterminada se ejecuta en torch.bfloat16.
Miso Labs afirma tener una latencia de 110 ms. Enumera ElevenLabs a 700 ms y Sesame a 300 ms.
El problema del tamaño del vocabulario
Los transformadores estándar generan a partir de un vocabulario fijo de tokens discretos. Eso funciona cuando un vocabulario pequeño cubre el espacio objetivo. El habla humana no se ajusta a esa suposición. Varía según el tono, el ritmo, el énfasis, la emoción y el acento.
Ampliar el vocabulario de audio es la solución obvia. Pero los vocabularios más amplios necesitan más parámetros en un transformador estándar. Cada token debe estar representado y predicho por el modelo. Miso Labs llama a esto el problema del tamaño del vocabulario.
La segunda cuestión es el condicionamiento. La mayoría de los modelos TTS condicionan únicamente el texto. Ignoran el tono del interlocutor. Miso Labs sostiene que esto contribuye al efecto del “valle inquietante”.
Cuantización de vectores residuales: la idea central
MisoTTS aborda ambos problemas con la cuantificación del vector residual (RVQ). Miso Labs rastrea RVQ hasta la investigación de generación de imágenes y hasta el CSM de Sesame para audio. En lugar de un índice simbólico, el modelo emite un vector de índices.
Cada token de audio tiene 32 índices de libros de códigos en libros de códigos de 2048 vías. El modelo mantiene un libro de códigos separado para cada posición en el vector. Para recuperar el sonido, suma los vectores buscados. Cada libro de códigos añade otro refinamiento a la señal.
Esto es lo que hace que la escala funcione. El vocabulario direccionable equivale al tamaño del libro de códigos elevado a la profundidad. Aumentar la profundidad no agrega parámetros al modelo. Entonces MisoTTS alcanza aproximadamente 204832, o aproximadamente 10105 tokens direccionables. Miso Labs señala que una escala ingenua requeriría una red mucho más grande.
La arquitectura de dos transformadores
El modelo se divide en una columna vertebral y un decodificador. La columna vertebral es un transformador de 7,7 B de parámetros, autorregresivo en el tiempo. Predice el primer índice del libro de códigos y un estado oculto final.
Luego, un decodificador de parámetros de 300 M se ejecuta autorregresivamente en profundidad. Predice los índices restantes del libro de códigos, una posición a la vez. Cada predicción condiciona los índices ya elegidos en el marco. Se reutilizan los mismos parámetros de 300M para cada posición.
Las incrustaciones siguen la misma lógica. Los tokens de texto utilizan una única búsqueda. La incrustación de un token de audio es la suma de las búsquedas del libro de códigos por posición. Intercalar texto y audio permite que la red troncal utilice el historial de conversaciones. Así es como transmite el contexto a lo largo de los turnos.
Fortalezas y desafíos
Fortalezas:
Pesas abiertas el primer día, bajo una licencia MIT modificada. RVQ escala el rango sónico sin escalar el recuento de parámetros. Condiciones sobre el contexto del audio, no solo sobre el texto. La implementación local mantiene los datos de audio confidenciales internamente. La arquitectura y las matemáticas están documentadas en una publicación de blog pública.
Desafíos:
Sólo semidúplex, sin turnos todavía. El modelo grande necesita una GPU CUDA capaz. El acceso a la API está anunciado pero aún no está disponible. Las afirmaciones de latencia y calidad aún necesitan pruebas de terceros.
Explicador visual de Marktechpost
Marktechpost · Resumen del modelo
01 / 09
Lanzamiento de pesos abiertos · 3 de junio de 2026
MisoTTS
Un modelo emotivo de conversión de texto a voz 8B de Miso Labs, construido sobre la cuantización de vectores residuales y condicionado tanto en texto como en audio.
parámetros 8B
Transformador RVQ
códigos mimi
MIT modificado
¿Qué es MisoTTS?
Un transformador RVQ de texto a diálogo
Un modelo de 8B parámetros inspirado en la arquitectura Sesame CSM. Empareja una red troncal estilo Llama 3.2 con un decodificador de audio más pequeño. Genera códigos de audio Mimi a partir de texto y contexto de audio opcional. Condiciones del audio anterior, por lo que la salida responde al tono del altavoz.
De un vistazo
Especificaciones publicadas
Parámetros
8B (7,7B + 300M)
Arquitectura
Transformador RVQ
Libros de códigos de audio
32 (2048 vías)
Precisión predeterminada
antorcha.bfloat16
La motivación
El problema del tamaño del vocabulario
Los transformadores generan a partir de un vocabulario fijo de tokens discretos. El habla varía en tono, ritmo, énfasis, emoción y acento. Un vocabulario de audio más amplio necesita más parámetros en un transformador estándar. La mayoría de los TTS se limitan al texto, ignorando el tono. – el efecto “valle inquietante”.
La idea central
Cuantización del vector residual
El modelo emite un vector de índices, no un único índice simbólico. Cada token tiene 32 índices de libros de códigos en libros de códigos de 2048 vías. La suma de los vectores buscados reconstruye el sonido. La profundidad escala el vocabulario direccionable a ~204832 (≈10105) sin parámetros agregados.
Arquitectura
Dos transformadores, un token vectorial
Backbone (7.7B): autorregresivo en el tiempo; predice el índice del libro de códigos k₁ y el estado oculto h₀. Decodificador (300M): autorregresivo en profundidad; predice k₂ hasta k₃₂. Se reutilizan los mismos parámetros de 300M para cada posición. El texto y el audio entrelazados permiten que la red troncal utilice el historial de conversaciones.
Ejecútelo localmente
Inferencia en unas pocas líneas.
de generador importar carga_miso_8b
importar torchaudio gen = load_miso_8b(dispositivo=“cuda”model_path_or_repo_id=“MisoLabs/MisoTTS”) audio = gen.generar (texto =“Hola de parte de Miso.”hablante =0contexto =[]max_audio_length_ms=10_000) antorchaaudio.save(“miso.wav”audio.unsqueeze(0).cpu(), gen.sample_rate)
La configuración usa uv con Python 3.10. Descarga de pesos desde Hugging Face. El audio tiene una marca de agua de forma predeterminada a través de SilentCipher. La clonación de voz de una sola vez funciona a partir de un clip de ~10 segundos.
Limitaciones
Donde se detiene, por ahora
Maneja solo giros individuales; todavía no hay turnos. Genera audio semidúplex: no puede hablar mientras habla la otra parte. Miso Labs enmarca el dúplex completo y los turnos como trabajo futuro. El acceso a la API está anunciado pero aún no está disponible.
Conclusiones clave
La versión corta
Pesos abiertos 8B TTS bajo una licencia MIT modificada. Condiciones sobre texto y audio, por lo que la salida rastrea el tono del altavoz. RVQ escala el vocabulario a ~204832 sin agregar parámetros. Red troncal de 7.7B en el tiempo, decodificador de 300M en profundidad. Half-duplex y single-turn hoy; Acceso API pendiente.
Conclusiones clave
MisoTTS de código abierto de Miso Labs, un modelo de conversión de texto a voz 8B, bajo una licencia MIT modificada. Condiciona el contexto tanto del texto como del audio, haciendo que las generaciones respondan al tono del hablante. La cuantización de vector residual (32 libros de códigos × 2048 vías) escala el vocabulario a ~2048³² sin agregar parámetros. La arquitectura divide una columna vertebral de 7,7 B (en el tiempo) y un decodificador de 300 M (en profundidad). Actualmente es semidúplex y de una sola vuelta; El acceso a la API aún está pendiente.
Consulte los pesos del modelo, el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros