Esta investigación de IA presenta un nuevo modelo de visión y lenguaje (“Delfines”) diseñado para absorber habilidades humanas como asistente de conducción conversacional

Un equipo de investigadores de la Universidad de Wisconsin-Madison, NVIDIA, la Universidad de Michigan y la Universidad de Stanford han desarrollado un nuevo modelo de visión y lenguaje (VLM) llamado Dolphins. Es un asistente de conducción conversacional que puede procesar entradas multimodales para proporcionar instrucciones de conducción informadas. Los delfines están diseñados para abordar los complejos escenarios de conducción que enfrentan los vehículos autónomos (AV) y exhiben características similares a las humanas, como aprendizaje rápido, adaptación, recuperación de errores e interpretabilidad durante conversaciones interactivas.

Los LLM como DriveLikeHuman y GPT-Driver carecen de funciones visuales ricas para la conducción autónoma. Los delfines combinan el razonamiento LLM con la comprensión visual, sobresaliendo en el aprendizaje en contexto y manejando diversas entradas de video. Inspirándose en el aprendizaje multimodal en contexto de Flamingo, Dolphins se alinea con trabajos que mejoran la comprensión de la instrucción en modelos de lenguaje multimodal a través de conjuntos de datos entrelazados de imágenes y texto.

El estudio aborda el desafío de lograr una autonomía total en los sistemas vehiculares, con el objetivo de diseñar vehículos autónomos con comprensión y capacidad de respuesta similares a las humanas en escenarios complejos. Los actuales sistemas de conducción autónoma modulares y basados ​​en datos se enfrentan a diversos problemas de integración y rendimiento. Dolphins, un VLM diseñado para AV, demuestra comprensión avanzada, aprendizaje instantáneo y recuperación de errores. Al enfatizar la interpretabilidad para la confianza y la transparencia, los Dolphins reducen la disparidad entre los sistemas autónomos existentes y las capacidades de conducción similares a las de los humanos.

Los delfines utilizan OpenFlamingo y GCoT para mejorar el razonamiento. Conectan los VLM en el contexto AV y desarrollan capacidades detalladas utilizando conjuntos de datos AV reales y sintéticos. También crean un conjunto de datos de ajuste de instrucciones multimodal en contexto para tareas de conversación detalladas.

Los delfines se destacan en la resolución de diversas tareas de vehículos autónomos con capacidades similares a las humanas, como la adaptación instantánea y la recuperación de errores. Identifican ubicaciones de conducción precisas, evalúan el estado del tráfico y comprenden el comportamiento de los agentes de la carretera. Las capacidades detalladas del modelo resultan de estar basadas en un conjunto de datos de imágenes generales y ajustadas dentro del contexto específico de la conducción autónoma. Un conjunto de datos de ajuste de instrucciones multimodal en contexto contribuye a su capacitación y evaluación.

Los delfines muestran una impresionante comprensión holística y un razonamiento humano en complejos escenarios de conducción. Como asistente de conducción conversacional, maneja diversas tareas AV, destacando por su interpretabilidad y rápida adaptación. Reconoce los desafíos computacionales, particularmente para lograr altas velocidades de cuadros en dispositivos de borde y administrar el consumo de energía. Proponer versiones de modelos personalizadas y destiladas sugiere una dirección prometedora para equilibrar las demandas computacionales con la eficiencia energética. La exploración y la innovación continuas se consideran esenciales para desbloquear todo el potencial de los vehículos autónomos potenciados por capacidades avanzadas de inteligencia artificial como Dolphins.

Una mayor exploración recomienda la eficiencia computacional, particularmente para lograr altas velocidades de fotogramas en dispositivos de borde y reducir el consumo de energía para ejecutar modelos avanzados en vehículos. Proponer el desarrollo de versiones personalizadas y destiladas de VLM, como Dolphins, sugiere una posible solución para equilibrar las demandas computacionales con la eficiencia energética. Destacar el papel fundamental de los VLM a la hora de permitir la conducción autónoma y desbloquear todo el potencial de la IA en los vehículos autónomos.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.