Screenshot 2024 09 06 At 1.01.04 Pm.png

La integración de modelos predictivos avanzados en los sistemas de conducción autónoma se ha vuelto crucial para mejorar la seguridad y la eficiencia. La predicción de video basada en cámaras surge como un componente fundamental, que ofrece datos valiosos del mundo real. El contenido generado por inteligencia artificial es actualmente un área de estudio líder dentro de los dominios de la visión por computadora y la inteligencia artificial. Sin embargo, la generación de videos fotorrealistas y coherentes plantea desafíos significativos debido a la memoria y el tiempo de cálculo limitados. Además, la predicción de video de una cámara frontal es fundamental para los sistemas avanzados de asistencia al conductor en vehículos autónomos.

Los enfoques existentes incluyen arquitecturas basadas en difusión que se han vuelto populares para generar imágenes y videos, con un mejor desempeño en tareas como generación, edición y traducción de imágenes. Otros métodos como las redes generativas antagónicas (GAN), los modelos basados ​​en flujo, los modelos autorregresivos y los codificadores automáticos variacionales (VAE) también se han utilizado para la generación y predicción de videos. Los modelos probabilísticos de difusión con eliminación de ruido (DDPM) superan a los modelos de generación tradicionales en efectividad. Sin embargo, generar videos largos continúa siendo computacionalmente exigente. Aunque los modelos autorregresivos como Phenaki abordan este problema, a menudo enfrentan desafíos con transiciones de escenas poco realistas e inconsistencias en secuencias más largas.

Un equipo de investigadores de la Universidad de Columbia en Nueva York ha propuesto el marco DriveGenVLM para generar vídeos de conducción y ha utilizado modelos de lenguaje de visión (VLM) para comprenderlos. El marco utiliza un enfoque de generación de vídeo basado en modelos probabilísticos de difusión con eliminación de ruido (DDPM) para predecir secuencias de vídeo del mundo real. Se utiliza un modelo preentrenado llamado aprendizaje eficiente en contexto sobre vídeos egocéntricos (EILEV) para evaluar la idoneidad de los vídeos generados para los VLM. EILEV también proporciona narraciones para estos vídeos generados, lo que puede mejorar la comprensión de la escena del tráfico, ayudar a la navegación y mejorar las capacidades de planificación en la conducción autónoma.

El marco DriveGenVLM se valida utilizando el conjunto de datos abierto Waymo, que proporciona diversos escenarios de conducción del mundo real en varias ciudades. El conjunto de datos se divide en 108 videos para el entrenamiento y se divide equitativamente entre las tres cámaras, y 30 videos para la prueba (10 por cámara). Este marco utiliza la métrica Frechet Video Distance (FVD) para evaluar la calidad de los videos generados, donde FVD mide la similitud entre las distribuciones de los videos generados y los reales. Esta métrica es valiosa para la coherencia temporal y la evaluación de la calidad visual, lo que la convierte en una herramienta eficaz para evaluar modelos de síntesis de video en tareas como la generación de videos y la predicción de cuadros futuros.

Los resultados del marco DriveGenVLM en el conjunto de datos abiertos Waymo para tres cámaras revelan que el método de muestreo adaptativo de jerarquía 2 supera a otros esquemas de muestreo al producir los puntajes FVD más bajos. Se generan videos de predicción para cada cámara utilizando este método de muestreo superior, donde cada ejemplo está condicionado a los primeros 40 fotogramas, con fotogramas de verdad fundamental y fotogramas predichos. Además, el entrenamiento del modelo de difusión flexible en el conjunto de datos Waymo muestra su capacidad para generar videos coherentes y fotorrealistas. Sin embargo, aún enfrenta desafíos para interpretar con precisión escenarios complejos de conducción del mundo real, como navegar por el tráfico y los peatones.

En conclusión, los investigadores de la Universidad de Columbia han introducido el marco DriveGenVLM para generar vídeos de conducción. El DDPM entrenado en el conjunto de datos de Waymo es competente a la hora de generar imágenes coherentes y realistas de las cámaras frontales y laterales. Además, el modelo EILEV preentrenado se utiliza para generar narraciones de acciones para los vídeos. El marco DriveGenVLM destaca el potencial de integrar modelos generativos y VLM para tareas de conducción autónoma. En el futuro, las descripciones generadas de escenarios de conducción se pueden utilizar en grandes modelos de lenguaje para ofrecer asistencia al conductor o dar soporte a algoritmos basados ​​en modelos de lenguaje.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y LinkedInÚnete a nuestro Canal de Telegram.

Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios


Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.