El ‘valle inquietante’ es la última frontera del vídeo generativo. Hemos visto avatares de IA que pueden hablar, pero a menudo carecen del alma de la interacción humana. Sufren de movimientos rígidos y falta de contexto emocional. Tavus pretende solucionar este problema con el lanzamiento de Phoenix-4, un nuevo modelo de IA generativa diseñado para la interfaz de vídeo conversacional (CVI).
Phoenix-4 representa un cambio de la generación de vídeo estático a la representación humana dinámica en tiempo real. No se trata sólo de mover los labios; se trata de crear un humano digital que perciba, cronometre y reaccione con inteligencia emocional.
El poder de tres: cuervo, gorrión y fénix
Para lograr un verdadero realismo, Tavus utiliza una arquitectura modelo de 3 partes. Comprender cómo interactúan estos modelos es clave para los desarrolladores que buscan crear agentes interactivos.
Raven-1 (Percepción): este modelo actúa como “ojos y oídos”. Analiza las expresiones faciales y el tono de voz del usuario para comprender el contexto emocional de la conversación. Sparrow-1 (Timing): este modelo gestiona el flujo de la conversación. Determina cuándo la IA debe interrumpir, pausar o esperar a que el usuario termine, asegurando que la interacción se sienta natural. Phoenix-4 (Renderizado): el motor de renderizado principal. Utiliza difusión gaussiana para sintetizar vídeos fotorrealistas en tiempo real.
Avance técnico: renderizado por difusión gaussiana
Phoenix-4 se aleja de los enfoques tradicionales basados en GAN. En su lugar, utiliza un modelo de representación de difusión gaussiana patentado. Esto permite a la IA calcular movimientos faciales complejos, como la forma en que el estiramiento de la piel afecta la luz o cómo aparecen las microexpresiones alrededor de los ojos.
Esto significa que el modelo maneja la coherencia espacial mejor que las versiones anteriores. Si un humano digital gira la cabeza, las texturas y la iluminación permanecen estables. El modelo genera estos fotogramas de alta fidelidad a una velocidad que admite una transmisión de 30 fotogramas por segundo (fps), lo cual es esencial para mantener la ilusión de vida.
Rompiendo la barrera de la latencia: menos de 600 ms
En un CVI, la velocidad lo es todo. Si el retraso entre que un usuario habla y la IA responde es demasiado largo, se pierde la sensación “humana”. Tavus ha desarrollado el canal Phoenix 4 para lograr una latencia conversacional de extremo a extremo inferior a 600 ms.
Esto se logra mediante una arquitectura que prioriza la transmisión. El modelo utiliza WebRTC (comunicación web en tiempo real) para transmitir datos de video directamente al navegador del cliente. En lugar de generar un archivo de vídeo completo y luego reproducirlo, Phoenix-4 renderiza y envía paquetes de vídeo de forma incremental. Esto garantiza que el tiempo hasta el primer fotograma se mantenga en un mínimo absoluto.
Control programático de emociones
Una de las funciones más poderosas es la API de control de emociones. Los desarrolladores ahora pueden definir explícitamente el estado emocional de una Persona durante una conversación.
Al pasar un parámetro de emoción en la solicitud de API, puede activar resultados de comportamiento específicos. Actualmente, el modelo admite estados emocionales primarios que incluyen:
Alegría Tristeza Ira Sorpresa
Cuando la emoción se convierte en alegría, el motor Phoenix-4 ajusta la geometría facial para crear una sonrisa genuina, afectando las mejillas y los ojos, no solo la boca. Esta es una forma de generación de video condicional donde la salida está influenciada tanto por los fonemas de conversión de texto a voz como por un vector emocional.
Construyendo con réplicas
La creación de una ‘réplica’ personalizada (un gemelo digital) requiere solo 2 minutos de video para la capacitación. Una vez que se completa la capacitación, la réplica se puede implementar a través del SDK de Tavus CVI.
El flujo de trabajo es sencillo:
Entrenar: sube 2 minutos de una persona hablando para crear un replica_id único. Implementar: use el punto final POST /conversaciones para iniciar una sesión. Configurar: establezca el persona_id y el nombre_conversación. Conectar: vincule la URL WebRTC proporcionada a su componente de video front-end.
Conclusiones clave
Representación por difusión gaussiana: Phoenix-4 va más allá de las GAN tradicionales para utilizar la difusión gaussiana, lo que permite movimientos faciales fotorrealistas de alta fidelidad y microexpresiones que resuelven el problema del “valle inquietante”. AI Trinity (Raven, Sparrow, Phoenix): la arquitectura se basa en tres modelos distintos: Raven-1 para la percepción emocional, Sparrow-1 para la sincronización/toma de turnos conversacionales y Phoenix-4 para la síntesis de video final. Latencia ultrabaja: optimizado para la interfaz de video conversacional (CVI), el modelo logra una latencia de extremo a extremo inferior a 600 ms, utilizando WebRTC para transmitir paquetes de video en tiempo real. Control programático de emociones: puede utilizar una API de control de emociones para especificar estados como alegría, tristeza, enojo o sorpresa, que ajusta dinámicamente la geometría y las expresiones faciales del personaje. Capacitación rápida de réplicas: la creación de un gemelo digital personalizado (“réplica”) es muy eficiente y requiere solo 2 minutos de secuencias de video para entrenar una identidad única para su implementación a través del SDK de Tavus.
Consulte los detalles técnicos, los documentos y pruébelo aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.