Aprendiendo a jugar Minecraft con Video PreTraining

Internet contiene una enorme cantidad de vídeos disponibles públicamente de los que podemos aprender. Puedes ver a una persona hacer una presentación magnífica, un artista digital dibujar una hermosa puesta de sol y un jugador de Minecraft construir una casa intrincada. Sin embargo, estos vídeos sólo proporcionan un registro de qué sucedió pero no precisamente cómo se logró, es decir, no sabrá la secuencia exacta de los movimientos del mouse y las teclas presionadas. Si quisiéramos construir a gran escala modelos de fundacion en estos dominios como lo hemos hecho en el lenguaje con GPTesta falta de etiquetas de acción plantea un nuevo desafío que no está presente en el dominio del lenguaje, donde las “etiquetas de acción” son simplemente las siguientes palabras de una oración.

Para utilizar la gran cantidad de datos de video sin etiquetar disponibles en Internet, presentamos un método de aprendizaje por imitación novedoso, pero simple, semisupervisado: Video PreTraining (VPT). Comenzamos recopilando un pequeño conjunto de datos de los contratistas donde grabamos no solo su video, sino también las acciones que realizaron, que en nuestro caso son pulsaciones de teclas y movimientos del mouse. Con estos datos entrenamos un modelo de dinámica inversa (IDM), que predice la acción que se realiza en cada paso del vídeo. Es importante destacar que el IDM puede utilizar datos pasados. y futuro información para adivinar la acción en cada paso. Esta tarea es mucho más fácil y, por lo tanto, requiere muchos menos datos que la tarea de clonación conductual de predecir acciones dadas. solo fotogramas de vídeo pasados, lo que requiere inferir qué quiere hacer la persona y cómo lograrlo. Luego podemos utilizar el IDM capacitado para etiquetar un conjunto de datos mucho más grande de videos en línea y aprender a actuar mediante la clonación de comportamiento.

Aprendiendo a jugar Minecraft con Video PreTraining

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Qwen Team Open-Sources Qwen3.6-35B-A3B: un modelo de lenguaje de visión MoE disperso con parámetros activos 3B y capacidades de codificación agente

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

Llevando herramientas de diseño de proteínas impulsadas por IA a biólogos de todo el mundo | Noticias del MIT

You missed

Premios de ciberseguridad 2026 Steve Durbin ISF honra el impacto global

Ataque con pistola de aire comprimido en el patio de juegos de la escuela

Colecciones de taquilla de Love Insurance Kompany (LIK): la comedia de ciencia ficción de Pradeep Ranganathan se vuelve FLOP y cierra la SEMANA 1 con 35 millones de rupias

Qwen Team Open-Sources Qwen3.6-35B-A3B: un modelo de lenguaje de visión MoE disperso con parámetros activos 3B y capacidades de codificación agente