El primer paso de MuZero desde la investigación al mundo real

Colaborar con YouTube para optimizar la compresión de vídeo en el códec VP9 de código abierto.

En 2016, presentamos AlfaGo, el primer programa de inteligencia artificial que derrota a los humanos en el antiguo juego de Go. Sus sucesores, alfacero y luego muzero, cada uno representó un importante paso adelante en la búsqueda de algoritmos de propósito general, dominando una mayor cantidad de juegos con conocimientos aún menos predefinidos. MuZero, por ejemplo, dominaba el ajedrez, el go, el shogi y el Atari sin necesidad de que le dijeran las reglas. Pero hasta ahora estos agentes se han centrado en resolver juegos. Ahora, en pos de la misión de DeepMind de resolver inteligencia, MuZero ha dado un primer paso hacia el dominio de una tarea del mundo real al optimizar el vídeo en YouTube.

en un preimpresión publicada en arXivdetallamos nuestra colaboración con YouTube para explorar el potencial de MuZero para mejorar la compresión de video. Los analistas predijeron que la transmisión de video habrá representado la gran mayoría del tráfico de Internet en 2021. Con el aumento del video durante la pandemia de COVID-19 y la cantidad total de tráfico de Internet que se espera que crezca en el futuro, la compresión de video es un problema cada vez más importante y una solución natural. área para aplicar el aprendizaje por refuerzo (RL) para mejorar el estado del arte en un dominio desafiante. Desde el lanzamiento a producción en una parte del tráfico en vivo de YouTube, hemos demostrado una reducción promedio de la tasa de bits del 4% en un conjunto grande y diverso de videos.

La mayoría de los videos en línea dependen de un programa llamado códec para comprimir o codificar el video en su origen, transmitirlo a través de Internet al espectador y luego descomprimirlo o decodificarlo para reproducirlo. Estos códecs toman múltiples decisiones para cada fotograma de un vídeo. Se han dedicado décadas de ingeniería manual a optimizar estos códecs, que son responsables de muchas de las experiencias de video que ahora son posibles en Internet, incluido el video a pedido, las videollamadas, los videojuegos y la realidad virtual. Sin embargo, debido a que RL se adapta particularmente bien a problemas de toma de decisiones secuenciales como los de los códecs, estamos explorando cómo un algoritmo aprendido mediante RL puede ayudar.

Nuestro enfoque inicial está en el códec VP9 (específicamente la versión de código abierto libvpx), ya que es ampliamente utilizado por YouTube y otros servicios de streaming. Al igual que con otros códecs, los proveedores de servicios que utilizan VP9 deben pensar en la tasa de bits: la cantidad de unos y ceros necesarios para enviar cada fotograma de un vídeo. La tasa de bits es un determinante importante en la cantidad de computación y ancho de banda que se requieren para servir y almacenar videos, lo que afecta todo, desde el tiempo que tarda un video en cargarse hasta su resolución, almacenamiento en búfer y uso de datos.

Al codificar un vídeo, los códecs utilizan información de fotogramas anteriores para reducir la cantidad de bits necesarios para fotogramas futuros.

En VP9, ​​la velocidad de bits se optimiza más directamente a través del parámetro de cuantificación (QP) en el módulo de control de velocidad. Para cada fotograma, este parámetro determina el nivel de compresión que se aplicará. Dada una tasa de bits objetivo, los QP para fotogramas de vídeo se deciden secuencialmente para maximizar la calidad general del vídeo. Intuitivamente, se deben asignar velocidades de bits más altas (QP más bajo) para escenas complejas y velocidades de bits más bajas (QP más alto) para escenas estáticas. El algoritmo de selección de QP explica cómo el valor QP de un cuadro de video afecta la asignación de la tasa de bits del resto de los cuadros de video y la calidad general del video. RL es especialmente útil para resolver un problema de toma de decisiones secuencial.

Para cada cuadro de un video procesado por VP9, ​​MuZero-RC, que reemplaza el mecanismo de control de velocidad predeterminado de VP9, ​​decide el nivel de compresión a aplicar, logrando una calidad similar con una tasa de bits más baja.

MuZero logra un rendimiento sobrehumano en diversas tareas combinando el poder de la búsqueda con su capacidad para aprender un modelo del entorno y planificar en consecuencia. Esto funciona especialmente bien en espacios de acción combinatorios grandes, lo que lo convierte en una solución candidata ideal para el problema del control de velocidad en la compresión de vídeo. Sin embargo, para que MuZero funcione en esta aplicación del mundo real es necesario resolver un conjunto completamente nuevo de problemas. Por ejemplo, el conjunto de videos subidos a plataformas como YouTube varía en contenido y calidad, y cualquier agente necesita generalizar entre videos, incluidos videos completamente nuevos después de la implementación. En comparación, los juegos de mesa tienden a tener un único entorno conocido. Muchas otras métricas y restricciones afectan la experiencia del usuario final y el ahorro de velocidad de bits, como el PSNR (relación señal-ruido máxima) y la restricción de velocidad de bits.

Para abordar estos desafíos con MuZero, creamos un mecanismo llamado autocompetencia, que convierte el complejo objetivo de la compresión de video en una simple señal de GANANCIA/PÉRDIDA al comparar el desempeño actual del agente con su desempeño histórico. Esto nos permite convertir un amplio conjunto de requisitos de códec en una señal simple que nuestro agente puede optimizar.

Al aprender la dinámica de la codificación de video y determinar la mejor manera de asignar bits, nuestro MuZero Rate-Controller (MuZero-RC) puede reducir la tasa de bits sin degradación de la calidad. La selección de QP es sólo una de las numerosas decisiones de codificación en el proceso de codificación. Si bien décadas de investigación e ingeniería han dado como resultado algoritmos eficientes, imaginamos un algoritmo único que pueda aprender automáticamente a tomar estas decisiones de codificación para obtener el equilibrio óptimo entre velocidad y distorsión.

Más allá de la compresión de vídeo, este primer paso en la aplicación de MuZero más allá de los entornos de investigación sirve como ejemplo de cómo nuestros agentes de RL pueden resolver problemas del mundo real. Al crear agentes equipados con una gama de nuevas capacidades para mejorar productos en todos los dominios, podemos ayudar a que varios sistemas informáticos sean más rápidos, menos intensivos y más automatizados. Nuestra visión a largo plazo es desarrollar un algoritmo único capaz de optimizar miles de sistemas del mundo real en una variedad de dominios.

Escuche a Jackson Broshear y David Silver hablar sobre MuZero con Hannah Fry en el episodio 5 de DeepMind: The Podcast. Escuche ahora en su aplicación de podcast favorita buscando “DeepMind: The Podcast”.