El sonido es indispensable para enriquecer las experiencias humanas, mejorar la comunicación y agregar profundidad emocional a los medios. Si bien la IA ha logrado avances significativos en varios dominios, incorporar sonido en modelos de generación de video con la misma sofisticación y matices que el contenido creado por humanos sigue siendo un desafío. Producir partituras para estos videos mudos es un siguiente paso importante en la realización de películas generadas.
Google DeepMind presenta tecnología de vídeo a audio (V2A) que permite la creación audiovisual sincronizada. Utilizando una combinación de píxeles de vídeo e instrucciones de texto en lenguaje natural, V2A crea un audio envolvente para la acción en pantalla. El equipo probó métodos autorregresivos y de difusión para encontrar la mejor arquitectura de IA escalable; Los resultados de la generación de audio mediante el método de difusión fueron los más convincentes y realistas en cuanto a la sincronización de audio e imágenes.
El primer paso de su tecnología de vídeo a audio es comprimir el vídeo de entrada. El audio se limpia repetidamente del ruido de fondo utilizando el modelo de difusión. Se utilizan entradas visuales y indicaciones en lenguaje natural para dirigir este proceso, lo que genera un audio realista y sincronizado que sigue de cerca las instrucciones. La decodificación, la generación de formas de onda y la combinación de datos de audio y visuales constituyen el paso final en el proceso de salida de audio.
Antes de ejecutar iterativamente la entrada de mensajes de vídeo y audio a través del modelo de difusión, V2A los codifica. El siguiente paso es crear audio comprimido decodificado en una forma de onda. Los investigadores complementaron el proceso de entrenamiento con información adicional, como transcripciones de diálogos hablados y anotaciones generadas por IA con descripciones extensas de sonido, para mejorar la capacidad del modelo para producir audio de alta calidad y entrenarlo para emitir sonidos específicos.
La tecnología presentada aprende a responder a la información en las transcripciones o anotaciones asociando distintos eventos de audio con diferentes escenarios visuales mediante entrenamiento en video, audio y las anotaciones agregadas. Para realizar tomas con una partitura dramática, efectos de sonido realistas o diálogos que complementen los personajes y el tono de un video, la tecnología V2A se puede combinar con modelos de generación de video como Veo.
Con su capacidad para crear partituras para una amplia gama de vídeos clásicos, como películas mudas y material de archivo, la tecnología V2A abre un mundo de posibilidades creativas. El aspecto más interesante es que puede generar tantas bandas sonoras como los usuarios deseen para cualquier entrada de vídeo. Los usuarios pueden definir un «mensaje positivo» para guiar la salida hacia los sonidos deseados o un «mensaje negativo» para alejarlo de ruidos no deseados. Esta flexibilidad brinda a los usuarios un control sin precedentes sobre la salida de audio de V2A, fomentando un espíritu de experimentación y permitiéndoles encontrar rápidamente la combinación perfecta para su visión creativa.
El equipo está dedicado a la investigación y el desarrollo continuos para abordar una variedad de problemas. Son conscientes de que la calidad de la salida de audio depende de la entrada de vídeo, y las distorsiones o artefactos en el vídeo que están fuera de la distribución de entrenamiento del modelo pueden provocar una degradación de audio notable. Están trabajando para mejorar la sincronización de labios en vídeos con voz en off. Al analizar las transcripciones de entrada, V2A tiene como objetivo crear un habla que esté perfectamente sincronizada con los movimientos de la boca de los personajes. El equipo también es consciente de la incongruencia que puede ocurrir cuando el modelo del video no se corresponde con la transcripción, lo que lleva a una extraña sincronización de labios. Están trabajando activamente para resolver estos problemas, demostrando su compromiso de mantener altos estándares y mejorar continuamente la tecnología.
El equipo busca activamente aportaciones de creadores y cineastas destacados, reconociendo sus invaluables conocimientos y contribuciones al desarrollo de la tecnología V2A. Este enfoque colaborativo garantiza que la tecnología V2A pueda influir positivamente en la comunidad creativa, satisfaciendo sus necesidades y mejorando su trabajo. Para proteger aún más el contenido generado por IA de cualquier abuso, integraron la caja de herramientas SynthID en el estudio V2A y le pusieron una marca de agua, lo que demuestra su compromiso con el uso ético de la tecnología.
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.