analizamos AlpamayoR1 (AR1), un modelo de conducción autónoma que integra un VLM para actuar como columna vertebral de razonamiento. Se basa en un conjunto de datos de cadena de causalidad cuidadosamente recopilados. El entrenamiento con este conjunto de datos permite a AR1 “razonar” en lenguaje natural para resolver situaciones de conducción desafiantes.
Pero ¿y si el lenguaje natural no es el mejor soporte para el razonamiento en los escenarios de conducción? Después de todo, cuando se enfrentan a una situación de conducción que requiere una reacción inmediata, los conductores humanos generalmente actúan de forma reflexiva en lugar de “razonar en el lenguaje paso a paso”. ¿Cuál es la alternativa para conducir modelos?
En este artículo, desglosamos la arquitectura LatentVLA, una versión convincente de los enfoques basados en el lenguaje que no requiere un conjunto de datos en lenguaje natural, realiza razonamientos en el espacio latente y utiliza la destilación del conocimiento para cumplir con las limitaciones del tiempo real.
Aprendizaje de acción latente
Una gran parte del éxito de AR1 reside en el conjunto de datos de la cadena de causalidad, cuya recopilación requirió esfuerzos a escala industrial, un proceso de etiquetado cuidadosamente elaborado y una validación exhaustiva.
Por el contrario, LatentVLA toma una dirección completamente opuesta: los autores argumentan que los datos de conducción sin procesar ya contienen la estructura necesaria para entrenar un modelo grande y que el lenguaje natural está inherentemente sesgado y es difícil de alinear con las acciones. Además, generar cadenas de razonamiento en lenguaje natural es ineficiente ya que algunos tokens no contribuyen significativamente al proceso de razonamiento (por ejemplo, palabras vacías).
Por lo tanto, introducen un marco autosupervisado empleado para predecir acciones latentes egocéntricas en un pequeño espacio latente. En otras palabras, el modelo utiliza datos de conducción sin etiquetar para predecir qué acción debe haber realizado el conductor para generar estos datos. Estas acciones latentes servirán como base para el razonamiento del espacio latente.
Aprendizaje de representación
Para predecir acciones latentes a partir de datos no etiquetados, los autores utilizan un método que recuerda a LAPO (aprender a actuar sin acciones) [2]. Este enfoque se basa en una configuración de codificador-decodificador en la que el codificador (también llamado “modelo de dinámica inversa”, IDM) utiliza dos fotogramas posteriores para predecir un vector de acción continuo y el decodificador (denominado “modelo de dinámica directa”, FDM) utiliza el fotograma actual y el vector de acción previsto para reconstruir el siguiente fotograma.
Esta configuración inteligente obliga a la representación de la acción aprendida a describir qué acción se debe haber tomado para observar las transiciones de estado en nuestro conjunto de datos. Sin embargo, esta representación de acción continua sigue siendo incompatible con los VLM que pretendemos utilizar. Para discretizarlo, los autores utilizan un VQ-VAE (codificador automático variacional cuantificado por vectores), que asigna vectores continuos a los vectores discretos más cercanos en un libro de códigos aprendido (es decir, un diccionario de acciones discretas) de forma diferenciable. Esta es la acción que utilizará el FDM para decodificar el siguiente fotograma.
Al optimizar el error de reconstrucción del siguiente cuadro, entrenamos conjuntamente el IDM y el FDM para codificar una representación de acción discreta predictiva.
Distinguir las acciones del ego del ruido ambiental
Ahora se podría pensar: “Las acciones del conductor no son el único factor que influye en el siguiente fotograma mientras conduce, ¿qué pasa si un pájaro vuela delante de la cámara? ¿Esto contamina la representación de la acción?”. A esto, los autores responden que sí y no, es necesario que exista un mecanismo que separe el impacto de las acciones del conductor en el futuro de la dinámica ambiental.
La solución elegante a este problema es utilizar una configuración codificador-decodificador de dos etapas:
Condicionado por la trayectoria de la verdad fundamental, el estado del ego y el marco previo, el codificador predice una acción latente. Dado que esta acción está condicionada a la dinámica del vehículo a lo largo de la trayectoria y el estado del ego, solo necesita modelar la dinámica ambiental para permitir que el decodificador reconstruya el siguiente cuadro. A continuación, se cuantifica esta “acción medioambiental” y el libro de códigos utilizado a tal efecto se congela para la siguiente etapa. Condicionado al cuadro anterior y a la acción ambiental, el codificador codifica otra acción latente. De manera similar, dado que las dinámicas ambientales son conocidas y forman parte del condicionamiento, esta segunda acción latente se ve obligada a codificar dinámicas egocéntricas. Utilizando un nuevo libro de códigos, esta acción se cuantifica en una acción del ego discreta.
Finalmente, alimentamos ambas acciones al decodificador para reconstruir el siguiente fotograma. Esta configuración garantiza una clara separación entre las acciones del ego y la dinámica ambiental.
Formación VLM
A partir de la representación de la acción aprendida, los autores entrenan un modelo Qwen2.5-VL para predecir las mismas acciones latentes que el modelo codificador-decodificador. Esto se logra haciendo que el codificador prediga una trayectoria de 12 acciones latentes para un cuadro de entrada determinado y haciendo que el VLM optimice su probabilidad logarítmica negativa:
Una diferencia sorprendente con otros enfoques que emplean libros de códigos de acciones es la cantidad de tokens de acciones utilizados por LatentVLA. Mientras que otros modelos como AutoVLA usan un libro de códigos de acción de 2048 tokens especiales, LatentVLA solo usa 16.
Esto da como resultado:
Una tarea de aprendizaje más sencilla: en un libro de códigos de 2048 dimensiones, las acciones probablemente representen decisiones de conducción muy precisas como “girar a la izquierda en un ángulo de 16 grados”. Con sólo 16 tokens, el modelo probablemente adopte directivas de nivel superior como “acelerar ligeramente”, “girar angostamente a la derecha”, que requieren menos demostraciones para aprender. Preservar los conocimientos previos al entrenamiento del VLM: no es necesario que aprenda más de 2000 “palabras nuevas”.
Destilación del conocimiento
Mientras que AlpamayoR1 se basó en una tokenización eficiente y una difusión de coincidencia de flujo para mantener el rendimiento en tiempo real, LatentVLA apuesta por un enfoque completamente diferente: la destilación del conocimiento. Para ello, los autores introducen un módulo de fusión dentro de las arquitecturas E2E existentes (iPad [4] y transfusor [5]). Este módulo de fusión recibe incorporaciones visuales y de acción mediante el VLM y genera funciones en el espacio Bird’s-Eye-View (BEV). Estas incorporaciones sirven como claves y valores en atención cruzada con consultas BEV producidas por el modelo E2E. Esto permite que el modelo E2E integre conocimientos de VLM.
Sin embargo, el VLM sigue siendo demasiado grande para utilizarlo de manera eficiente en el momento de la prueba. Por lo tanto, un pequeño transformador de decisión de 50M de parámetros está entrenado para imitar el gran VLM Qwen2.5-VL de 3.8B. Esto se logra minimizando la divergencia de KL entre las distribuciones de profesores y estudiantes:
Este marco permite a LatentVLA operar con una columna vertebral de razonamiento muy compacta y proporciona un enfoque general para integrar el conocimiento de VLM en arquitecturas E2E tradicionales a un costo menor.
Evaluación
LatentVLA está capacitado y evaluado en NavSim [6]un conjunto de datos compuesto por más de 100.000 fotogramas recopilados en simulaciones de conducción del mundo real. NavSim también incluye un simulador no reactivo para evaluar la planificación de bucle abierto.
En otras palabras, el modelo predice una trayectoria durante los próximos segundos dadas las imágenes de entrada. Luego, esta trayectoria se ejecuta en una simulación BEV que opera bajo el supuesto de que las acciones del ego-vehículo no afectan las acciones de otros agentes (por lo tanto, “no reactivas”). Esto permite medir fácilmente métricas relacionadas con la planificación, como la puntuación del modelo predictivo del conductor (PDMS): una métrica compuesta que cuantifica la seguridad, el rendimiento y el riesgo de la conducción mediante la integración de resultados de simulación.
Sin embargo, este tipo de evaluación tiene algunas deficiencias importantes, como veremos más adelante.
En este punto de referencia, LatentVLA obtiene resultados de última generación, mejorando las arquitecturas estándar basadas en E2E y LLM. Sin embargo, el aumento de rendimiento obtenido al integrar el conocimiento de VLM en iPad y Transfuser parece limitado. Centrándonos en el PDMS, observamos que el iPad base obtiene una puntuación del 91,7%. La alternativa destilada LatentVLA aumenta la puntuación a 92,1 (+0,4%) y la versión no destilada alcanza 92,4 (otro +0,3%).
Esta pequeña mejora plantea la pregunta de si el razonamiento de alto nivel y el conocimiento del mundo son realmente esenciales para conducir.
En mi opinión, tienen el potencial de desbloquear un nuevo nivel de rendimiento de conducción, pero esto no se mide bien con simuladores de planificación no interactivos.
Las limitaciones de la planificación de código abierto
En los últimos años, se ha aceptado ampliamente que sólo la evaluación de los modelos de conducción en una planificación de circuito abierto da una imagen incompleta de sus capacidades reales de conducción. De hecho, la planificación de circuito abierto es fundamentalmente diferente de la conducción y posiblemente más fácil. La razón principal es que la planificación de bucle abierto no implica interacciones con el entorno (el simulador, en el mejor de los casos, no es reactivo) y se reduce a imitar la trayectoria de un experto. Esto crea múltiples problemas en escenarios reales:
Pequeñas desviaciones de las trayectorias aprendidas conducen a errores en cascada: sin interacciones dinámicas con el entorno y otros agentes, los modelos de bucle abierto luchan por rectificar trayectorias que están ligeramente desalineadas con las que aprendieron. Las trayectorias son inherentemente multimodales: para cada situación de conducción, existen múltiples trayectorias y patrones de aceleración que conducen a resultados de conducción seguros. Sin embargo, el aprendizaje por imitación en una única trayectoria experta colapsa esta multimodalidad, limitando las capacidades de generalización del modelo.
Por estas razones, es importante evaluar exhaustivamente los modelos de conducción en simuladores de circuito cerrado (es decir, reactivos) y garantiza el uso de métodos de post-entrenamiento de RL como se analiza en el artículo AR1.
Apostaría a que la discrepancia entre LatentVLA y sus líneas de base que no son VLM es mayor en estos escenarios, ya que el razonamiento podría ayudar a aliviar las limitaciones del entrenamiento de circuito abierto.
Conclusión
En este artículo, analizamos LatentVLA, un enfoque que tiene como objetivo integrar el conocimiento de VLM en modelos E2E estándar sin depender del lenguaje natural. Este enfoque es innovador en el sentido de que permite aprender representaciones útiles a partir de datos sin etiquetar, mientras que trabajos competidores como AR1 se basan en conjuntos de datos a gran escala cuidadosamente anotados para evitar la ambigüedad del lenguaje natural.
Sin embargo, LatentVLA se beneficiaría de una evaluación más exhaustiva, en particular en entornos de circuito cerrado.
¡Gracias por leer hasta aquí!
Si este artículo le resultó útil, considere compartirlo; Realmente ayuda a respaldar el tiempo y el esfuerzo que se dedican a producir este trabajo. Como siempre, no dude en ponerse en contacto conmigo si tiene preguntas, pensamientos o ideas para seguimiento. Si desea apoyar mi investigación y mis escritos independientes, no dude en invitarme a un café 😉
¡Hasta la próxima! 👋
Referencias
Transfusor para iPad LatentVLA LAPO VQ-VAE