Aprendiendo a jugar Minecraft con Video PreTraining

Internet contiene una enorme cantidad de vídeos disponibles públicamente de los que podemos aprender. Puedes ver a una persona hacer una presentación magnífica, un artista digital dibujar una hermosa puesta de sol y un jugador de Minecraft construir una casa intrincada. Sin embargo, estos vídeos sólo proporcionan un registro de qué sucedió pero no precisamente cómo se logró, es decir, no sabrá la secuencia exacta de los movimientos del mouse y las teclas presionadas. Si quisiéramos construir a gran escala modelos de fundacion en estos dominios como lo hemos hecho en el lenguaje con GPTesta falta de etiquetas de acción plantea un nuevo desafío que no está presente en el dominio del lenguaje, donde las “etiquetas de acción” son simplemente las siguientes palabras de una oración.

Para utilizar la gran cantidad de datos de video sin etiquetar disponibles en Internet, presentamos un método de aprendizaje por imitación novedoso, pero simple, semisupervisado: Video PreTraining (VPT). Comenzamos recopilando un pequeño conjunto de datos de los contratistas donde grabamos no solo su video, sino también las acciones que realizaron, que en nuestro caso son pulsaciones de teclas y movimientos del mouse. Con estos datos entrenamos un modelo de dinámica inversa (IDM), que predice la acción que se realiza en cada paso del vídeo. Es importante destacar que el IDM puede utilizar datos pasados. y futuro información para adivinar la acción en cada paso. Esta tarea es mucho más fácil y, por lo tanto, requiere muchos menos datos que la tarea de clonación conductual de predecir acciones dadas. solo fotogramas de vídeo pasados, lo que requiere inferir qué quiere hacer la persona y cómo lograrlo. Luego podemos utilizar el IDM capacitado para etiquetar un conjunto de datos mucho más grande de videos en línea y aprender a actuar mediante la clonación de comportamiento.