Este documento de IA presenta SRDF: un volante de datos autorrefinado para conjuntos de datos de navegación de visión y lenguaje de alta calidad

La navegación por visión y lenguaje (VLN) combina la percepción visual con la comprensión del lenguaje natural para guiar a los agentes a través de entornos 3D. El objetivo es permitir que los agentes sigan instrucciones similares a las humanas y naveguen por espacios complejos de forma eficaz. Estos avances tienen potencial en la robótica, la realidad aumentada y las tecnologías de asistentes inteligentes, donde las instrucciones lingüísticas guían la interacción con los espacios físicos.

El problema central en la investigación de VLN es la falta de conjuntos de datos anotados de alta calidad que combinen trayectorias de navegación con instrucciones precisas en lenguaje natural. Anotar estos conjuntos de datos manualmente requiere importantes recursos, experiencia y esfuerzo, lo que hace que el proceso sea costoso y requiera mucho tiempo. Además, estas anotaciones a menudo no proporcionan la riqueza lingüística y la fidelidad necesarias para generalizar los modelos en diversos entornos, lo que limita su eficacia en aplicaciones del mundo real.

Las soluciones existentes se basan en la generación de datos sintéticos y el aumento del entorno. Los datos sintéticos se generan utilizando modelos de trayectoria a instrucción, mientras que los simuladores diversifican los entornos. Sin embargo, estos métodos a menudo deben mejorar la calidad, lo que produce datos mal alineados entre el idioma y las trayectorias de navegación. Esta desalineación da como resultado un rendimiento subóptimo del agente. El problema se complica aún más por las métricas que evalúan inadecuadamente la alineación semántica y direccional de las instrucciones con sus trayectorias correspondientes, desafiando así el control de calidad.

Investigadores del Laboratorio de IA de Shanghai, la UNC Chapel Hill, Adobe Research y la Universidad de Nanjing propusieron el Self-Refining Data Flywheel (SRDF), un sistema diseñado para mejorar iterativamente tanto el conjunto de datos como los modelos mediante la colaboración mutua entre un generador de instrucciones y un navegador. Este método totalmente automatizado elimina la necesidad de anotaciones realizadas por una persona. A partir de un pequeño conjunto de datos de alta calidad anotados por humanos, el sistema SRDF genera instrucciones sintéticas y las utiliza para entrenar a un navegador base. Luego, el navegador evalúa la fidelidad de estas instrucciones y filtra los datos de baja calidad para entrenar un mejor generador en iteraciones posteriores. Este refinamiento iterativo garantiza una mejora continua tanto en la calidad de los datos como en el rendimiento de los modelos.

El sistema SRDF consta de dos componentes clave: un generador de instrucciones y un navegador. El generador crea instrucciones de navegación sintéticas a partir de trayectorias utilizando modelos de lenguaje multimodal avanzados. El navegador, a su vez, evalúa estas instrucciones midiendo con qué precisión puede seguir las rutas generadas. Los datos de alta calidad se identifican en función de estrictas métricas de fidelidad, como el éxito ponderado por la longitud de la ruta (SPL) y la distorsión dinámica del tiempo normalizada (nDTW). Los datos de mala calidad se regeneran o se excluyen, lo que garantiza que solo se utilicen datos confiables y altamente alineados para la capacitación. A lo largo de tres iteraciones, el sistema refina el conjunto de datos, que en última instancia contiene 20 millones de pares de trayectoria-instrucción de alta fidelidad que abarcan 860 entornos diversos.

El sistema SRDF demostró mejoras de rendimiento excepcionales en varias métricas y puntos de referencia. En el conjunto de datos Room-to-Room (R2R), la métrica SPL para el navegador aumentó del 70% a un 78% sin precedentes, superando el punto de referencia humano del 76%. Este es el primer caso en el que un agente VLN supera la precisión de navegación a nivel humano. El generador de instrucciones también logró resultados impresionantes, con puntuaciones SPICE que aumentaron de 23,5 a 26,2, superando todos los métodos anteriores de generación de instrucciones de navegación por visión y lenguaje. Además, los datos generados por SRDF facilitaron una generalización superior en las tareas posteriores, incluida la navegación a largo plazo (R4R) y la navegación basada en diálogo (CVDN), logrando un rendimiento de vanguardia en todos los conjuntos de datos probados.

Específicamente, el sistema destacó en navegación de largo horizonte, logrando una mejora del 16,6 % en la tasa de éxito en el conjunto de datos R4R. El conjunto de datos CVDN mejoró significativamente la métrica de progreso del objetivo, superando a todos los modelos anteriores. Además, la escalabilidad de SRDF fue evidente a medida que el generador de instrucciones mejoró constantemente con conjuntos de datos más grandes y entornos diversos, lo que garantizó un rendimiento sólido en diversas tareas y puntos de referencia. Los investigadores también informaron una mayor diversidad y riqueza de la instrucción, con más de 10,000 palabras únicas incorporadas en el conjunto de datos generado por SRDF, abordando las limitaciones de vocabulario de los conjuntos de datos anteriores.

El enfoque SRDF aborda el desafío de larga data de la escasez de datos en VLN mediante la automatización del refinamiento del conjunto de datos. La colaboración iterativa entre el navegador y el generador de instrucciones garantiza la mejora continua de ambos componentes, lo que genera conjuntos de datos altamente alineados y de alta calidad. Este método innovador ha establecido un nuevo estándar en la investigación de VLN, mostrando el papel fundamental de la calidad y la alineación de los datos en el avance de la IA incorporada. Con su capacidad para superar el desempeño humano y generalizarse en diversas tareas, SRDF está preparado para impulsar un progreso significativo en el desarrollo de sistemas de navegación inteligentes.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.