Los conjuntos de datos anotados a gran escala han servido como vía para crear modelos precisos en diversas tareas de visión por computadora. Quieren ofrecer una carretera de este tipo en este estudio para lograr un seguimiento detallado de largo alcance. El seguimiento detallado de largo alcance tiene como objetivo seguir el punto coincidente de la superficie del mundo durante el mayor tiempo posible, dada la ubicación de cualquier píxel en cualquier fotograma de una película. Existen varias generaciones de conjuntos de datos destinados al seguimiento detallado de corto alcance (p. ej., flujo óptico) y conjuntos de datos actualizados periódicamente destinados a varios tipos de seguimiento detallado de largo alcance (p. ej., seguimiento de un solo objeto, seguimiento de múltiples objetos, segmentación de objetos de vídeo). Sin embargo, hay un número limitado de trabajos en la interfaz entre estos dos tipos de seguimiento.
Los investigadores ya han probado rastreadores detallados en películas del mundo real con escasas anotaciones proporcionadas por humanos (BADJA y TAPVid) y los han entrenado con datos sintéticos poco realistas (FlyingThings++ y Kubric-MOVi-E), que consisten en objetos aleatorios que se mueven en direcciones inesperadas. en fondos aleatorios. Si bien es intrigante que estos modelos puedan generalizarse a videos reales, el uso de una capacitación tan básica impide el desarrollo de un contexto temporal de largo alcance y una conciencia semántica a nivel de escena. Sostienen que el seguimiento de puntos de largo alcance no debe considerarse una extensión del flujo óptico, donde el naturalismo puede abandonarse sin sufrir consecuencias negativas.
Si bien los píxeles del vídeo pueden moverse de forma algo aleatoria, su trayectoria refleja varios elementos modelables, como sacudidas de la cámara, movimientos y deformaciones a nivel de objetos y conexiones entre múltiples objetos, incluidas interacciones sociales y físicas. El progreso depende de que las personas se den cuenta de la magnitud del problema, tanto en términos de datos como de metodología. Investigadores de la Universidad de Stanford sugieren PointOdyssey, un gran conjunto de datos sintéticos para la capacitación y evaluación de seguimiento detallado a largo plazo. La complejidad, la diversidad y el realismo de los videos del mundo real están representados en su colección, y la anotación de píxeles perfectos solo se puede lograr mediante simulación.
Utilizan movimientos, diseños de escena y trayectorias de cámara que se extraen de videos y capturas de movimiento del mundo real (en lugar de ser aleatorios o diseñados a mano), distinguiendo su trabajo de conjuntos de datos sintéticos anteriores. También utilizan la aleatorización de dominios en varios atributos de la escena, como mapas ambientales, iluminación, cuerpos humanos y animales, trayectorias de cámaras y materiales. También pueden ofrecer más realismo fotográfico del que se podía lograr anteriormente gracias a los avances en la accesibilidad al contenido de alta calidad y a las tecnologías de renderizado. Los perfiles de movimiento en sus datos se derivan de conjuntos de datos considerables de captura de movimiento humano y animal. Emplean estas capturas para generar trayectorias realistas de largo alcance para humanoides y otros animales en situaciones al aire libre.
En situaciones al aire libre, emparejan a estos actores con objetos 3D dispersos aleatoriamente en el plano del suelo. Estas cosas responden a que los actores sigan la física, como ser expulsados cuando los pies entran en contacto con ellos. Luego, emplean capturas de movimiento de entornos interiores para crear escenarios interiores realistas y recrear manualmente los entornos de captura en su simulador. Esto nos permite recrear los movimientos e interacciones precisos mientras mantenemos el carácter consciente de la escena de los datos originales. Para proporcionar datos complejos de múltiples vistas de las situaciones, importan trayectorias de cámara derivadas de imágenes reales y conectan cámaras adicionales a las cabezas de los seres sintéticos. A diferencia de los patrones de movimiento en gran medida aleatorios de Kubric y FlyingThings, adoptan un enfoque basado en la captura.
Sus datos estimularán el desarrollo de técnicas de seguimiento que van más allá de la dependencia convencional únicamente de señales ascendentes, como la coincidencia de características, y utilizan señales a nivel de escena para ofrecer sólidos antecedentes en el camino. Una amplia colección de activos simulados, que incluyen 42 formas humanoides con texturas creadas por artistas, 7 animales, más de 1.000 texturas de objetos/fondo, más de 1.000 objetos, 20 escenarios 3D originales y 50 mapas ambientales, le dan a sus datos su diversidad estética. Para crear una variedad de escenarios oscuros y brillantes, aleatorizan la iluminación de la escena. Además, añaden efectos dinámicos de niebla y humo a sus escenarios, añadiendo un tipo de oclusión parcial de la que FlyingThings y Kubric carecen por completo. Uno de los nuevos problemas que plantea PointOdyssey es cómo emplear un contexto temporal de largo alcance.
Por ejemplo, el algoritmo de seguimiento de partículas independientes persistentes (PIP) de última generación tiene una ventana temporal de 8 fotogramas. Sugieren algunos cambios en los PIP como un primer paso hacia el uso de un contexto temporal arbitrariamente largo, incluida la ampliación considerable de su alcance temporal de 8 fotogramas y la adición de un mecanismo de actualización de plantillas. Según los hallazgos experimentales, su solución supera a todas las demás en cuanto a precisión de seguimiento, tanto en el conjunto de pruebas PointOdyssey como en puntos de referencia del mundo real. En conclusión, PointOdyssey, un conjunto de datos sintéticos considerable para el seguimiento de puntos a largo plazo que intenta reflejar las dificultades (y oportunidades) del seguimiento detallado del mundo real, es la principal contribución de este estudio.
Revisar la Papel, Proyectoy Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.