Inworld AI lanza Realtime TTS-2: un modelo de voz de circuito cerrado que se adapta a tu forma de hablar realmente

Voice AI tiene un sucio secreto: la mayor parte nunca fue diseñada para conversar. El paradigma dominante (introducir texto, sacar audio) tiene su linaje en la narración de audiolibros y la producción de voces en off, donde el modelo nunca escucha a la persona al otro lado de la línea. Eso está bien cuando estás generando una introducción a un podcast. No está bien que un usuario frustrado intente obtener asistencia de un agente de IA a las 11 p.m.

Inworld AI lo señala directamente con el lanzamiento de Realtime TTS-2, un nuevo modelo de voz lanzado como vista previa de la investigación a través de su API Inworld y su API Inworld Realtime. El modelo escucha el audio completo del intercambio, capta el tono, el ritmo y el estado emocional del usuario y luego recibe instrucciones de voz en un inglés sencillo, de la misma manera que los desarrolladores solicitan un LLM.

¿Qué es realmente diferente aquí?

La distinción arquitectónica significativa con TTS-2 es que opera como un sistema de circuito cerrado. El modelo toma como entrada el audio real de los turnos anteriores del intercambio, no solo una transcripción: escucha cómo sonó realmente el usuario. Esa es una diferencia no trivial. Una transcripción de “está bien, está bien” te proporciona las palabras. El audio de “está bien, está bien” te indica si la persona está aliviada, resignada o sarcástica. TTS-2 está diseñado para utilizar esa señal.

La misma línea aterriza de manera diferente después de una broma que después de una mala noticia, y el modelo sabe la diferencia porque escuchó el giro anterior. El tono, el ritmo y el estado emocional se transmiten automáticamente. En términos prácticos, el contexto de audio fluye a lo largo de los turnos dentro de una sesión en tiempo real sin que los desarrolladores tengan que pasar campos explícitos de prior_audio o crear tuberías adicionales.

Cuatro capacidades, un modelo

El equipo de Inworld envía TTS-2 con cuatro características clave, posicionando la combinación y no una pieza individual, como diferenciación.

Dirección de voz: permite a los desarrolladores dirigir la entrega mediante indicaciones en lenguaje sencillo en línea en el momento de la inferencia. En lugar de seleccionar de una enumeración de emociones fija como [sad] o [excited]los desarrolladores pasan una etiqueta de corchete como [speak sadly, as if something bad just happened] directamente en el texto. Las indicaciones largas y descriptivas superan a las etiquetas cortas: el modelo responde mucho mejor al contexto completo que las etiquetas de una sola palabra. Marcadores no verbales en línea como [laugh], [sigh], [breathe], [clear_throat]y [cough] se pueden soltar en cualquier parte del texto donde debería ocurrir el momento, y el modelo los coloca como eventos de audio, no como palabras pronunciadas. Conciencia conversacional: es la arquitectura de circuito cerrado descrita anteriormente: el cambio arquitectónico que separa a TTS-2 de los modelos de generaciones anteriores que tratan cada oración como una llamada de generación sin estado. Compatibilidad multilingüe: se conserva una identidad de voz en más de 100 idiomas, incluidos los cambios de idioma a mitad de la expresión dentro de una sola generación. No se necesita ninguna bandera de idioma: el modelo maneja las transiciones automáticamente, manteniendo constante el timbre, el tono y el carácter en todo el interruptor. Los idiomas de primer nivel se envían con calidad de hablante nativo, mientras que la cola larga se describe como experimental de ventana de lanzamiento, en consonancia con el lanzamiento del modelo como una vista previa de la investigación. Diseño de voz avanzado: genera una voz guardada a partir de un mensaje escrito y no requiere audio de referencia. Los desarrolladores pueden describir a una persona en prosa, guardar el resultado como una voz reutilizable y llamarla como cualquier otra voz en la aplicación. Voice Design se entrega con tres modos de estabilidad: Expresivo (para conversaciones en vivo con consumidores y acompañantes), Equilibrado (el valor predeterminado para la mayoría de las cargas de trabajo de los agentes) y Estable (para IVR y implementaciones profesionales donde la desviación del tono es inaceptable).

La capa conversacional debajo

Más allá de las cuatro características clave, destaca un conjunto de comportamientos que empujan el discurso hacia lo que describe como territorio de “persona que presta atención”. Lo más interesante desde el punto de vista técnico son las disfluencias: el modelo genera uh y um naturales, autocorrecciones, pausas a mitad de una frase nominal y pensamientos que indican calidez y recuerdo en lugar de mal funcionamiento. Fundamentalmente, los diferentes perfiles de hablantes agrupan los rellenos de manera diferente, y el modelo sigue el ritmo: el relleno como energía suena diferente del relleno como vacilación. La clonación de voz también se admite a través de una API de dos pasos: cargue una muestra de referencia (5 a 15 segundos, limpia, un solo hablante) a /voices/v1/voices:clone, obtenga una identificación de voz y úsela como cualquier otra voz.

Dónde cabe en la pila

TTS-2 es una capa en la cartera más amplia de API en tiempo real de Inworld. La pila completa incluye Realtime STT, que transcribe y perfila al hablante en una sola pasada, capturando la edad, el acento, el tono, el estilo vocal, el tono emocional y el ritmo como señales estructuradas en la misma conexión. Un enrutador en tiempo real que enruta a través de más de 200 modelos, seleccionando el modelo y las herramientas apropiados según el estado del usuario y el contexto de la conversación. Y TTS-2 en la capa de salida. La canalización se ejecuta a través de una única conexión WebSocket persistente, con un tiempo medio de obtención del primer audio inferior a 200 ms para la capa TTS.

https://artificialanalysis.ai/text-to-speech/leaderboard. (datos al 5 de mayo de 2026)

El contexto más amplio

Realtime TTS 1.5 ya ocupa el puesto número 1 en Artificial Analysis Speech Arena (al 5 de mayo de 2026), por delante de Google (n.° 2) y ElevenLabs (n.° 3). El lanzamiento de TTS-2 indica que Inworld considera que la calidad del audio sin procesar es un problema resuelto y ahora está compitiendo en la capa de comportamiento: conciencia del contexto, direccionabilidad y consistencia de identidad en todos los idiomas.

Consulte los documentos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

La publicación Inworld AI lanza Realtime TTS-2: un modelo de voz de circuito cerrado que se adapta a la forma en que usted habla apareció por primera vez en MarkTechPost.