Los investigadores de IA de NVIDIA lanzan NitroGen: un modelo de base de acción de visión abierta para agentes de juegos generalistas

El equipo de investigación de IA de NVIDIA lanzó NitroGen, un modelo básico de acción de visión abierta para agentes de juegos generalistas que aprende a jugar juegos comerciales directamente a partir de píxeles y acciones del gamepad utilizando video de Internet a escala. NitroGen está entrenado en 40.000 horas de juego en más de 1.000 juegos y viene con un conjunto de datos abiertos, un simulador universal y una política previamente entrenada.

https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf

Conjunto de datos de acción de video a escala de Internet

El proceso de NitroGen comienza a partir de videos de juegos disponibles públicamente que incluyen superposiciones de entrada, por ejemplo, visualizaciones de gamepad que los transmisores colocan en una esquina de la pantalla. El equipo de investigación recopila 71.000 horas de vídeo sin procesar con dichas superposiciones y luego aplica un filtrado de calidad basado en la densidad de acción, lo que deja el 55% de los datos, unas 40.000 horas, que abarcan más de 1.000 juegos.

El conjunto de datos seleccionado contiene 38.739 vídeos de 818 creadores. La distribución cubre una amplia gama de títulos. Hay 846 juegos con más de 1 hora de datos, 91 juegos con más de 100 horas y 15 juegos con más de 1000 horas cada uno. Los juegos de rol de acción representan el 34,9 por ciento de las horas, los juegos de plataformas el 18,4 por ciento y los títulos de acción y aventuras el 9,2 por ciento, y el resto se reparte entre deportes, roguelike, carreras y otros géneros.

Para recuperar acciones a nivel de fotograma a partir de transmisiones sin procesar, NitroGen utiliza un proceso de extracción de acciones de tres etapas. Primero, un módulo de coincidencia de plantillas localiza la superposición del controlador utilizando aproximadamente 300 plantillas de controlador. Para cada vídeo, el sistema toma muestras de 25 fotogramas y compara las características SIFT y XFeat entre fotogramas y plantillas, luego estima una transformación afín cuando al menos 20 elementos internos admiten una coincidencia. Esto produce un recorte de la región del controlador para todos los fotogramas.

En segundo lugar, un modelo de segmentación de clasificación híbrida basado en SegFormer analiza los cultivos controladores. El modelo toma dos cuadros consecutivos concatenados espacialmente y genera ubicaciones de joystick en una cuadrícula de 11 por 11 más estados de botones binarios. Está entrenado en 8 millones de imágenes sintéticas renderizadas con diferentes plantillas de controlador, opacidades, tamaños y configuraciones de compresión, utilizando AdamW con una tasa de aprendizaje de 0,0001, una disminución de peso de 0,1 y un tamaño de lote de 256.

En tercer lugar, el oleoducto refina las posiciones del joystick y filtra los segmentos de baja actividad. Las coordenadas del joystick se normalizan en el rango de −1,0 a 1,0 utilizando el percentil 99 de los valores absolutos de x e y para reducir los valores atípicos. Se eliminan los fragmentos en los que menos del 50 por ciento de los pasos de tiempo tienen acciones distintas de cero, lo que evita sobrepredecir la acción nula durante la capacitación de políticas.

Un punto de referencia separado con registros de controladores reales muestra que las predicciones del joystick alcanzan un R² promedio de 0,84 y la precisión del marco de los botones alcanza 0,96 en las principales familias de controladores, como Xbox y PlayStation. Esto valida que las anotaciones automáticas sean lo suficientemente precisas para la clonación de comportamientos a gran escala.

Simulador universal y benchmark multijuego

NitroGen incluye un simulador universal que incluye juegos comerciales de Windows en una interfaz compatible con Gymnasium. El contenedor intercepta el reloj del sistema del motor del juego para controlar el tiempo de simulación y admite la interacción cuadro por cuadro sin modificar el código del juego, para cualquier título que utilice el reloj del sistema para la física y las interacciones.

Las observaciones en este punto de referencia son fotogramas RGB únicos. Las acciones se definen como un espacio de controlador unificado con un vector binario de 16 dimensiones para los botones del gamepad, cuatro botones del pad direccional, cuatro botones frontales, dos hombros, dos gatillos, dos botones de pulgar del joystick, inicio y retroceso, más un vector continuo de 4 dimensiones para las posiciones del joystick, x,y izquierda y derecha. Este diseño unificado permite la transferencia directa de una política a través de muchos juegos.

El conjunto de evaluación cubre 10 juegos comerciales y 30 tareas. Hay cinco juegos bidimensionales, tres de desplazamiento lateral y dos roguelikes de arriba hacia abajo, y cinco juegos tridimensionales, dos juegos de mundo abierto, dos juegos de rol de acción centrados en el combate y un título deportivo. Las tareas se dividen en 11 tareas de combate, 10 tareas de navegación y 9 tareas específicas del juego con objetivos personalizados.

Arquitectura del modelo NitroGen

La política de la fundación NitroGen sigue el patrón de arquitectura GR00T N1 para agentes incorporados. Descarta los codificadores de idioma y estado y mantiene un codificador de visión más un cabezal de acción único. La entrada es un cuadro RGB con una resolución de 256 por 256. Un transformador de visión SigLIP 2 codifica este cuadro en 256 tokens de imagen.

Un transformador de difusión, DiT, genera 16 pasos de acciones futuras. Durante el entrenamiento, un perceptrón multicapa incrusta fragmentos de acción ruidosos en tokens de acción, los procesa una pila de bloques DiT con atención propia y atención cruzada a los tokens visuales, y luego los decodifica nuevamente en vectores de acción continuos. El objetivo del entrenamiento es la coincidencia de flujo condicional con 16 pasos de eliminación de ruido en cada fragmento de 16 acciones.

El punto de control publicado tiene 4,93 × 10^8 parámetros. La tarjeta modelo describe la salida como un tensor de 21 por 16, donde 17 dimensiones corresponden a estados de botones binarios y 4 dimensiones almacenan dos vectores de joystick bidimensionales, en 16 pasos de tiempo futuros. Esta representación es coherente con el espacio de acción unificado, hasta la remodelación de los componentes del joystick.

Resultados de la formación y ganancias de transferencia

NitroGen se entrena exclusivamente con clonación de comportamiento a gran escala en el conjunto de datos de vídeo de Internet. No hay aprendizaje por refuerzo ni diseño de recompensa en el modelo base. Los aumentos de imágenes incluyen brillo, contraste, saturación, tono, pequeñas rotaciones y cultivos aleatorios. El entrenamiento utiliza AdamW con una caída de peso de 0,001, un programa de tasa de aprendizaje de caída estable en el calentamiento con fase constante en 0,0001 y un promedio móvil exponencial de pesos con una caída de 0,9999.

Después del entrenamiento previo con el conjunto de datos completo, NitroGen 500M ya logra tasas de finalización de tareas no triviales en la evaluación de tiro cero en todos los juegos del punto de referencia. Las tasas promedio de finalización se mantienen en el rango de aproximadamente 45 por ciento a 60 por ciento en tareas específicas de combate, navegación y juegos, y en juegos bidimensionales y tridimensionales, a pesar del ruido en la supervisión de Internet.

Para la transferencia a juegos no vistos, el equipo de investigación ofrece un título, entrena previamente los datos restantes y luego ajusta el juego en espera con un presupuesto fijo de datos y cálculo. En un roguelike isométrico, el ajuste fino de NitroGen proporciona una mejora relativa promedio de alrededor del 10 por ciento en comparación con el entrenamiento desde cero. En un juego de rol de acción tridimensional, la ganancia promedio es de aproximadamente el 25 por ciento, y para algunas tareas de combate en el régimen de datos bajos, 30 horas, la mejora relativa alcanza el 52 por ciento.

Conclusiones clave

NitroGen es un modelo básico de visión y acción generalista para juegos: asigna fotogramas RGB de 256 × 256 directamente a acciones de gamepad estandarizadas y se entrena con clonación pura de comportamiento en juegos de Internet, sin ningún aprendizaje de refuerzo. El conjunto de datos es a gran escala y está etiquetado automáticamente a partir de superposiciones de controladores: NitroGen utiliza 40.000 horas de juego filtrado de 38.739 vídeos en más de 1.000 juegos, donde las acciones a nivel de fotograma se extraen de superposiciones de controladores visuales mediante un proceso de análisis basado en SegFormer. El espacio de acción del controlador unificado permite la transferencia entre juegos: las acciones se representan en un espacio compartido de aproximadamente 20 dimensiones por paso de tiempo, incluidos botones binarios del gamepad y vectores continuos del joystick, lo que permite implementar una política única en muchos juegos comerciales de Windows utilizando un simulador universal estilo Gymnasium. Política de transformador de difusión con coincidencia de flujo condicional: el modelo de parámetros de 4,93 × 10^8 utiliza un codificador de visión SigLIP 2 más un cabezal de acción basado en DiT entrenado con coincidencia de flujo condicional en fragmentos de acción de 16 pasos, logrando un control sólido a partir de datos ruidosos a escala web. El entrenamiento previo con NitroGen mejora el rendimiento del juego posterior: cuando se realiza un ajuste fino en títulos disponibles con los mismos datos y presupuesto de cómputo, la inicialización basada en NitroGen produce ganancias relativas consistentes, alrededor del 10 por ciento al 25 por ciento en promedio y hasta el 52 por ciento en tareas de combate con pocos datos, en comparación con el entrenamiento desde cero.

Consulte el artículo y el modelo aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.