Inworld AI ha presentado Inworld TTS-1.5, una actualización de su familia TTS-1 que se dirige a agentes de voz en tiempo real con estrictas restricciones de latencia, calidad y costo. TTS-1.5 se describe como el sistema de texto a voz número uno en análisis artificial y está diseñado para ser más expresivo y estable que las generaciones anteriores, sin dejar de ser adecuado para implementaciones de consumidores a gran escala.
Latencia en tiempo real para agentes interactivos
TTS-1.5 se centra en el tiempo P90 hasta la primera latencia de audio, que es una métrica fundamental para la capacidad de respuesta percibida por el usuario. Para TTS-1.5 Max, el tiempo P90 hasta el primer audio es inferior a 250 ms. Para TTS-1.5 Mini, el tiempo P90 hasta el primer audio es inferior a 130 ms. Estos valores son aproximadamente 4 veces más rápidos que la generación TTS anterior según Inworld.
La pila TTS-1.5 admite la transmisión a través de WebSocket para que la síntesis y la reproducción puedan comenzar tan pronto como se genere el primer fragmento de audio. En la práctica, esto mantiene la latencia de interacción de un extremo a otro en el mismo rango que las respuestas típicas de los modelos de lenguaje en tiempo real cuando los modelos se ejecutan en GPU modernas, lo cual es importante cuando TTS es parte de una canalización completa de agentes.
Inworld recomienda TTS-1.5 Max para la mayoría de las aplicaciones porque equilibra la latencia cercana a los 200 ms con mayor estabilidad y calidad. TTS-1.5 Mini está preparado para cargas de trabajo sensibles a la latencia, como juegos en tiempo real o agentes de voz ultra sensibles, donde cada milisegundo es importante.
Expresión, estabilidad y posición de referencia.
TTS-1.5 se basa en TTS-1 y ofrece aproximadamente un 30 por ciento más de rango expresivo y aproximadamente un 40 por ciento más de estabilidad que los modelos anteriores.
Aquí expresión se refiere a características como la prosodia, el énfasis y la variación emocional. La estabilidad se mide mediante métricas como la tasa de error de palabras y la coherencia de la salida en secuencias largas y indicaciones variadas. La reducción en la tasa de error de palabras reduce problemas como oraciones truncadas, sustituciones de palabras no deseadas o artefactos, lo cual es importante cuando la salida TTS se genera directamente desde el texto del modelo de lenguaje generado.
Perfil de precios y costos a escala del consumidor
El precio del TTS-1.5 incluye dos configuraciones principales. Inworld TTS-1.5 Mini cuesta 5 dólares por 1 millón de caracteres, lo que equivale a unos 0,005 dólares por minuto de conversación. TTS-1.5 Max cuesta 10 dólares por 1 millón de caracteres, lo que equivale aproximadamente a 0,01 dólares por minuto.
Este perfil de costos hace posible ejecutar TTS continuamente en productos de alto uso, como compañeros nativos de voz, plataformas educativas o líneas de atención al cliente, sin que TTS se convierta en el costo variable dominante.
Soporte multilingüe, clonación de voz y opciones de implementación
Inworld TTS-1.5 admite 15 idiomas. La lista incluye inglés, español, francés, coreano, holandés, chino, alemán, italiano, japonés, polaco, portugués, ruso, hindi, árabe y hebreo. Esto permite que un único canal TTS cubra un amplio conjunto de mercados sin modelos separados por región.
El sistema proporciona clonación de voz instantánea y clonación de voz profesional. La clonación de voz instantánea puede crear una voz personalizada a partir de aproximadamente 15 segundos de audio y se expone directamente en el portal Inworld y a través de API. La clonación de voz profesional utiliza al menos 30 minutos de audio limpio, aunque se recomiendan 20 minutos o más para obtener mejores resultados, y se centra en voces de marca y acentos menos comunes.
Para la implementación, TTS-1.5 está disponible como API en la nube y también como solución local, donde el modelo completo se ejecuta dentro de la infraestructura del cliente para la soberanía y el cumplimiento de los datos. Se mantiene el mismo perfil de calidad en ambos modos de implementación y los modelos se integran con plataformas de socios como LiveKit, Pipecat y Vapi para pilas de agentes de voz de un extremo a otro.
Conclusiones clave
Inworld TTS 1.5 ofrece rendimiento en tiempo real, con un tiempo P90 hasta el primer audio inferior a 250 ms para el modelo Max y inferior a 130 ms para el modelo Mini, aproximadamente 4 veces más rápido que la generación anterior. El modelo aumenta la expresividad en aproximadamente un 30 por ciento y mejora la estabilidad con una tasa de error de palabras aproximadamente un 40 por ciento menor. El precio está optimizado para la escala del consumidor, TTS 1.5 Mini cuesta alrededor de 5 dólares por 1 millón de caracteres y TTS 1.5 Max cuesta alrededor de 10 dólares por 1 millón de caracteres, lo que es significativamente más barato por minuto que muchos sistemas de la competencia. TTS 1.5 admite 15 idiomas y ofrece clonación de voz instantánea y profesional, lo que permite voces personalizadas y de marca a partir de audio de referencia breve o conjuntos de datos grabados más largos. El sistema está disponible como API en la nube y como implementación local, y se integra con pilas de agentes de voz existentes, lo que lo hace adecuado para agentes de producción en tiempo real que requieren garantías explícitas sobre latencia, calidad y control de datos.
Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.