La reidentificación de personas (ReID) tiene como objetivo identificar personas a través de múltiples cámaras que no se superponen. El desafío de obtener conjuntos de datos completos ha impulsado la necesidad de aumentar los datos, y las redes generativas adversarias (GAN) emergen como una solución prometedora.
Se han utilizado técnicas como GAN y su variante, las redes generativas adversarias convolucionales profundas (DCGAN), para generar imágenes humanas para el aumento de datos. El estilo de cámara (CamStyle) que utiliza CycleGAN aborda el problema de los diferentes estilos de cámara, mientras que el GAN con pose normalizada (PNGAN) se centra en capturar diferentes posturas de los peatones. El principal desafío es hacer coincidir personas con diferentes estilos de cámara. Los métodos basados en GAN suelen producir imágenes sin etiquetar y, si bien algunas técnicas reducen las diferencias en el estilo de la cámara, pueden introducir ruido y redundancia. La diversidad de posturas de los peatones frente a las cámaras también presenta un desafío.
Un equipo de investigación de China publicó un nuevo artículo para superar los desafíos citados anteriormente. Los autores introdujeron un CycleGAN mejorado para el aumento de datos ReID. Su método integra una subred de restricción de pose, lo que garantiza la coherencia en la postura mientras se aprende el estilo y la identidad de la cámara. También emplean la etiqueta multipseudoregularizada (MpRL) para el aprendizaje semisupervisado, lo que permite la asignación dinámica de pesos de etiquetas. Los resultados preliminares indican un rendimiento superior en múltiples conjuntos de datos de ReID.
El sistema completo comprende dos redes generadoras, dos redes discriminadoras y dos redes de segmentación semántica. Estas redes de segmentación se denominan redes de restricción de pose y son fundamentales para garantizar la coherencia en las posturas de los peatones en diferentes imágenes. En el CycleGAN mejorado, primero, un generador tiene la tarea de crear imágenes falsas y el discriminador evalúa la autenticidad de estas imágenes. A través de un proceso iterativo continuo, las imágenes generadas se refinan progresivamente para parecerse mucho a imágenes reales. Una característica importante de este enfoque es la pérdida de restricción de pose, que garantiza que la postura de un dominio (X) se alinee con la del otro dominio (Y). Esta pérdida se calcula midiendo la distancia de píxeles entre las imágenes falsas y reales.
Además, CycleGAN utiliza coherencia cíclica para asignar imágenes generadas a su dominio de origen, garantizando la integridad de las transformaciones. Para mejorar el rendimiento del CycleGAN mejorado, se ha delineado una estrategia de capacitación. Esta estrategia implica el uso de herramientas de anotación de imágenes, el entrenamiento previo de subredes específicas y la optimización continua de la función de pérdida total.
Por último, el artículo presenta el método de etiquetas multipseudo regularizadas (MpRL), diseñado para asignar etiquetas a imágenes generadas de manera más efectiva que las técnicas tradicionales de aprendizaje semisupervisado. El MpRL ofrece distintos pesos para diferentes clases de entrenamiento, lo que permite un etiquetado más refinado y preciso de las imágenes generadas y mejora los resultados de la reidentificación de peatones. Este método contrasta con la estrategia LSRO, que tiende a proporcionar ponderaciones uniformes a todas las clases de entrenamiento, lo que a menudo resulta en predicciones menos precisas.
Para evaluar la eficiencia del método propuesto, los autores probaron en conjuntos de datos de reidentificación de tres personas (ReID): Market-1501, DukeMTMC-reID y CUHK03-NP. Estos conjuntos de datos enfrentan desafíos como diferencias de color entre cámaras y desequilibrio de datos. Rank-n y mAP fueron las principales métricas de evaluación utilizadas. El experimento se creó en Python3 con PyTorch en un servidor Linux robusto. Inicialmente, se entrenó una red CycleGAN mejorada para las discrepancias de las cámaras, seguida de la red ReID. Para la validación, los autores realizaron un estudio de ablación. El CycleGAN mejorado produjo mejores puntuaciones de rango 1 y mAP que el CycleGAN estándar. Los mejores hiperparámetros para CycleGAN se determinaron experimentalmente. Las comparaciones entre los métodos LSRO y MpRL revelaron que MpRL era superior. La incorporación de varias funciones de pérdida populares con MpRL tuvo distintos efectos en el rendimiento. Los resultados establecieron que el uso de CycleGAN mejorado con el método MpRL superó las técnicas convencionales de aumento de datos, salvando efectivamente las diferencias de estilo de cámara y mejorando la precisión de la reidentificación. La comparación del método propuesto con otros métodos de última generación corroboró aún más la superioridad de su enfoque.
Para concluir, el equipo de investigación introdujo un CycleGAN avanzado para la reidentificación de personas, incorporando una subred de restricción de pose para disminuir las variaciones en el estilo de la cámara. Las pérdidas de restricciones de postura mantienen la coherencia de la postura durante el aprendizaje de la identidad. MpRL se utiliza para la asignación de etiquetas, lo que mejora la precisión de la reidentificación. Las evaluaciones de tres conjuntos de datos de ReID confirman la eficacia de su método. Los esfuerzos futuros se centrarán en las variaciones de dominio para optimizar el modelo para escenarios del mundo real.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Mahmoud es un investigador de doctorado en aprendizaje automático. También posee un
Licenciatura en Ciencias Físicas y Maestría en
sistemas de telecomunicaciones y redes. Sus áreas actuales de
Las investigaciones se refieren a la visión por computadora, la predicción del mercado de valores y la profundidad.
aprendiendo. Produjo varios artículos científicos sobre la relación de personas.
identificación y estudio de la robustez y estabilidad de profundidades
redes.