El programa de inteligencia artificial Sora generó un vídeo con esta mujer artificial basado en un mensaje de texto.
Sora/OpenAI
OpenAI ha presentado su último sistema de inteligencia artificial, un programa llamado Sora que puede transformar descripciones de texto en videos fotorrealistas. El modelo de generación de videos está generando entusiasmo por el avance de la tecnología de inteligencia artificial, junto con crecientes preocupaciones sobre cómo los videos artificiales deepfake empeoran la desinformación durante un año electoral crucial en todo el mundo.
Actualmente, el modelo Sora AI puede crear videos de hasta 60 segundos de duración utilizando solo instrucciones de texto o texto combinado con una imagen. Un vídeo de demostración comienza con un mensaje de texto que describe cómo “una mujer elegante camina por una calle de Tokio llena de luces de neón cálidas y luminosas y carteles animados de la ciudad”. Otros ejemplos incluyen un perro retozando en la nieve, vehículos circulando por carreteras y escenarios más fantásticos, como tiburones nadando en el aire entre los rascacielos de la ciudad.
“Al igual que con otras técnicas de IA generativa, no hay razón para creer que la conversión de texto a vídeo no seguirá mejorando rápidamente, acercándonos cada vez más a un momento en el que será difícil distinguir lo falso de lo real”. dice Hany Farid en la Universidad de California, Berkeley. “Esta tecnología, si se combina con la clonación de voz impulsada por IA, podría abrir un frente completamente nuevo cuando se trata de crear deepfakes de personas que dicen y hacen cosas que nunca hicieron”.
Sora se basa en parte en las tecnologías preexistentes de OpenAI, como el generador de imágenes DALL-E y los grandes modelos de lenguaje GPT. Los modelos de IA de texto a video se han quedado algo atrás de esas otras tecnologías en términos de realismo y accesibilidad, pero la demostración de Sora es un “orden de magnitud más creíble y menos caricaturesco” que lo anterior, dice Raquel Tabacocofundador de SocialProof Security, una organización de hackers de sombrero blanco centrada en la ingeniería social.
Para lograr este mayor nivel de realismo, Sora combina dos enfoques de IA diferentes. El primero es un modelo de difusión similar a los utilizados en generadores de imágenes de IA como DALL-E. Estos modelos aprenden a convertir gradualmente píxeles de imágenes aleatorias en una imagen coherente. La segunda técnica de IA se llama “arquitectura transformadora” y se utiliza para contextualizar y reconstruir datos secuenciales. Por ejemplo, los modelos de lenguaje grandes utilizan una arquitectura transformadora para ensamblar palabras en oraciones generalmente comprensibles. En este caso, OpenAI dividió los videoclips en “parches de espacio-tiempo” visuales que la arquitectura transformadora de Sora podía procesar.
Los videos de Sora todavía contienen muchos errores, como las piernas izquierda y derecha de un humano que camina intercambiando lugares, una silla flotando aleatoriamente en el aire o una galleta mordida mágicamente sin marca de mordisco. Aún, Jim Fanun científico investigador senior de NVIDIA, recurrió a la plataforma de redes sociales X para elogiar a Sora como un “motor de física basado en datos” que puede simular mundos.
El hecho de que los vídeos de Sora todavía muestren algunos fallos extraños al representar escenas complejas con mucho movimiento sugiere que estos vídeos deepfake serán detectables por ahora, dice Arvind Narayanan en la Universidad de Princeton. Pero también advirtió que a largo plazo “tendremos que encontrar otras formas de adaptarnos como sociedad”.
OpenAI ha pospuesto la puesta a disposición del público de Sora mientras realiza ejercicios de “equipo rojo” en los que los expertos intentan romper las salvaguardias del modelo de IA para evaluar su potencial de uso indebido. El grupo selecto de personas que actualmente prueban a Sora son “expertos en áreas como desinformación, contenido de odio y prejuicios”, dice un portavoz de OpenAI.
Esta prueba es vital porque los videos artificiales podrían permitir que los malos actores generen imágenes falsas para, por ejemplo, acosar a alguien o influir en una elección política. La desinformación alimentada por deepfakes generados por IA es una de las principales preocupaciones para líderes en el mundo académico, empresarial, gubernamental y otros sectores, así como para expertos en IA.
“Sora es absolutamente capaz de crear vídeos que podrían engañar a la gente común”, dice Tobac. “No es necesario que el vídeo sea perfecto para ser creíble, ya que mucha gente todavía no se da cuenta de que el vídeo se puede manipular tan fácilmente como las imágenes”.
Las empresas de inteligencia artificial necesitarán colaborar con las redes sociales y los gobiernos para manejar la escala de desinformación que probablemente ocurrirá una vez que Sora se abra al público, dice Tobac. Las defensas podrían incluir la implementación de identificadores únicos, o “marcas de agua”, para el contenido generado por IA.
Cuando se le preguntó si OpenAI tiene algún plan para que Sora esté más disponible en 2024, el portavoz de OpenAI describió que la empresa “ha tomado varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI”. Por ejemplo, la empresa ya utiliza procesos automatizados destinados a evitar que sus modelos comerciales de IA generen representaciones de violencia extrema, contenido sexual, imágenes de odio y políticos o celebridades reales. Con más gente que nunca participar en las elecciones de este añoesas medidas de seguridad serán cruciales.
Temas: