Waymo presenta el Waymo World Model: un nuevo modelo de simulador Frontier para conducción autónoma construido sobre Genie 3

Waymo presenta Waymo World Model, un modelo generativo de vanguardia que impulsa su próxima generación de simulación de conducción autónoma. El sistema está construido sobre Genie 3, el modelo mundial de propósito general de Google DeepMind, y lo adapta para producir escenas de conducción fotorrealistas, controlables y con múltiples sensores a escala.

Waymo ya reporta casi 200 millones de millas totalmente autónomas en vías públicas. Entre bastidores, el conductor se entrena y es evaluado en miles de millones de kilómetros adicionales en mundos virtuales. El Waymo World Model es ahora el motor principal que genera esos mundos, con el objetivo explícito de exponer la pila a eventos de “cola larga” raros y críticos para la seguridad que son casi imposibles de ver con suficiente frecuencia en la realidad.

Del Genie 3 a un modelo mundial específico para la conducción

Genie 3 es un modelo mundial de propósito general que convierte indicaciones de texto en entornos interactivos en los que se puede navegar en tiempo real a aproximadamente 24 cuadros por segundo, generalmente con una resolución de 720p. Aprende la dinámica de las escenas directamente a partir de grandes corpus de vídeo y admite un control fluido mediante las entradas del usuario.

Waymo utiliza Genie 3 como columna vertebral y lo entrena posteriormente para el dominio de conducción. El Waymo World Model mantiene la capacidad de Genie 3 para generar mundos 3D coherentes, pero alinea las salidas con el conjunto de sensores y las limitaciones operativas de Waymo. Genera imágenes de cámara de alta fidelidad y nubes de puntos LIDAR que evolucionan constantemente con el tiempo, coincidiendo con la forma en que el controlador Waymo percibe realmente el entorno.

Esto no es sólo renderizado de vídeo. El modelo produce observaciones multisensor, temporalmente consistentes, que los sistemas de conducción autónomos posteriores pueden consumir en las mismas condiciones que los registros del mundo real.

Conocimiento emergente del mundo multimodal

La mayoría de los simuladores AV se entrenan únicamente con datos de flotas en carretera. Eso los limita al clima, la infraestructura y los patrones de tráfico que realmente encontró una flota. En cambio, Waymo aprovecha el entrenamiento previo de Genie 3 en un conjunto extremadamente grande y diverso de videos para importar un amplio “conocimiento mundial” al simulador.

Luego, Waymo aplica una capacitación posterior especializada para transferir este conocimiento del video 2D a salidas lidar 3D adaptadas a su hardware. Las cámaras proporcionan una apariencia e iluminación ricas. Lidar aporta geometría y profundidad precisas. Waymo World Model genera conjuntamente estas modalidades, por lo que una escena simulada viene con flujos RGB y nubes de puntos 4D realistas.

Debido a la diversidad de los datos previos al entrenamiento, el modelo puede sintetizar condiciones que la flota de Waymo no ha visto directamente. El equipo de Waymo muestra ejemplos como nieve ligera en el puente Golden Gate, tornados, callejones sin salida inundados, calles tropicales extrañamente cubiertas de nieve y salidas de un incendio en la carretera. También maneja objetos inusuales y casos extremos como elefantes, cuernos largos de Texas, leones, peatones vestidos como T-rex y plantas rodadoras del tamaño de un automóvil.

El punto importante es que estos comportamientos son emergentes. El modelo no está programado explícitamente con reglas para elefantes o dinámica de fluidos de tornados. En cambio, reutiliza la estructura espaciotemporal genérica aprendida de los vídeos y la adapta a las escenas de conducción.

Tres ejes de controlabilidad

Un objetivo clave del diseño es una fuerte controlabilidad de la simulación. El Waymo World Model expone tres mecanismos de control principales: control de la acción de conducción, control del diseño de la escena y control del lenguaje.

Control de la acción de conducción: el simulador responde a entradas de conducción específicas, lo que permite contrafactuales de tipo “qué pasaría si” además de los registros grabados. Los desarrolladores pueden preguntar si el controlador Waymo podría haber conducido de manera más asertiva en lugar de ceder en una escena pasada y luego simular ese comportamiento alternativo. Debido a que el modelo es completamente generativo, mantiene el realismo incluso cuando la ruta simulada se aleja mucho de la trayectoria original, donde los métodos puramente reconstructivos como el 3D Gaussian Splatting (3DGS) sufrirían la falta de puntos de vista.

Control de diseño de escena: el modelo se puede condicionar a la geometría de la carretera modificada, los estados de las señales de tráfico y otros usuarios de la carretera. Waymo puede insertar o reposicionar vehículos y peatones o aplicar mutaciones a los diseños de las carreteras para sintetizar escenarios de interacción específicos. Esto respalda las pruebas de estrés sistemáticas de los comportamientos de cesión, fusión y negociación más allá de lo que aparece en los registros sin procesar.

Control de idioma: las indicaciones en lenguaje natural actúan como una interfaz flexible de alto nivel para editar la hora del día, el clima o incluso generar escenas completamente sintéticas. El equipo de Waymo muestra secuencias de ‘Mutación Mundial’ en las que se representa la misma escena de la ciudad base al amanecer, la mañana, el mediodía, la tarde, la tarde y la noche, y luego en condiciones nubladas, con niebla, lluviosas, nevadas y soleadas.

Este control de tres ejes está cerca de una API estructurada: acciones de conducción numéricas, ediciones de diseño estructural y mensajes de texto semánticos dirigen el mismo modelo mundial subyacente.

Convertir vídeos ordinarios en simulaciones multimodales

Waymo World Model puede convertir grabaciones normales de dispositivos móviles o cámaras de tablero en simulaciones multimodales que muestran cómo Waymo Driver percibiría la misma escena.

Waymo muestra ejemplos de recorridos panorámicos en Noruega, el Parque Nacional Arches y el Valle de la Muerte. Teniendo solo el video, el modelo reconstruye una simulación con imágenes de cámara alineadas y salida lidar. Esto crea escenarios con un fuerte realismo y factualidad porque el mundo generado está anclado a imágenes reales, sin dejar de ser controlable a través de los tres mecanismos anteriores.

En la práctica, esto significa que se puede reutilizar un gran corpus de vídeo de estilo consumidor como entrada de simulación estructurada sin necesidad de grabaciones LIDAR en esas ubicaciones.

Inferencia escalable y despliegues prolongados

Las maniobras de largo horizonte, como atravesar un carril estrecho con tráfico en sentido contrario o navegar por vecindarios densos, requieren muchos pasos de simulación. Los modelos generativos ingenuos sufren cambios de calidad y altos costos de computación durante implementaciones prolongadas.

El equipo de Waymo informa sobre una variante eficiente del Waymo World Model que admite secuencias largas con una reducción dramática en la computación mientras mantiene el realismo. Muestran una reproducción a 4x de velocidad de escenas extendidas como la navegación en la autopista alrededor de un obstáculo en el carril, la conducción en un vecindario concurrido, la subida de calles empinadas alrededor de motociclistas y el manejo de giros en U de un SUV.

Para entrenamiento y pruebas de regresión, esto reduce el presupuesto de hardware por escenario y hace que los grandes conjuntos de pruebas sean más manejables.

Conclusiones clave

Modelo mundial basado en Genie 3: Waymo World Model adapta Genie 3 de Google DeepMind en un modelo mundial específico para la conducción que genera entornos 3D fotorrealistas, interactivos y multisensor para simulación AV. Salidas 4D multisensor alineadas con el controlador Waymo: el simulador produce conjuntamente imágenes de cámara temporalmente consistentes y nubes de puntos lidar, alineadas con la pila de sensores reales de Waymo, de modo que los sistemas autónomos posteriores puedan consumir la simulación como registros reales. Cobertura emergente de escenarios raros y de cola larga: al aprovechar el preentrenamiento de video a gran escala, el modelo puede sintetizar condiciones y objetos raros, como nieve en caminos inusuales, inundaciones, incendios y animales como elefantes o leones, que la flota nunca ha observado directamente. Controlabilidad de tres ejes para pruebas de estrés específicas: el control de la acción de conducción, el control del diseño de la escena y el control del lenguaje permiten a los desarrolladores ejecutar contrafactuales, editar la geometría de la carretera y los participantes del tráfico, y modificar la hora del día o el clima a través de mensajes de texto en el mismo entorno generativo. Simulación eficiente de largo horizonte y videoanclada: una variante optimizada admite implementaciones largas a un costo de computación reducido, y el sistema también puede convertir videos de cámaras de tablero o móviles comunes en simulaciones multimodales controlables, ampliando el conjunto de escenarios realistas.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.