Este documento de IA propone una novedosa estrategia de preentrenamiento llamada MAE-Align’ para preservar la privacidad para combinar de manera efectiva datos sintéticos y datos reales eliminados por humanos

El reconocimiento de acciones, la tarea de identificar y clasificar acciones humanas a partir de secuencias de vídeo, es un campo crucial dentro de la visión por computadora. Sin embargo, su dependencia de conjuntos de datos a gran escala que contienen imágenes de personas plantea importantes desafíos relacionados con la privacidad, la ética y la protección de datos. Estos problemas surgen debido a la posible identificación de personas en función de atributos personales y recopilación de datos sin consentimiento explícito. Además, los sesgos relacionados con el género, la raza o acciones específicas realizadas por ciertos grupos pueden afectar la precisión y equidad de los modelos entrenados en dichos conjuntos de datos.

En el reconocimiento de acciones, los avances en las metodologías de preentrenamiento en conjuntos de datos de video masivos han sido fundamentales. Sin embargo, estos avances conllevan desafíos, como consideraciones éticas, problemas de privacidad y sesgos inherentes a los conjuntos de datos con imágenes humanas. Los enfoques existentes para abordar estos problemas incluyen difuminar caras, reducir la resolución de videos o emplear datos sintéticos para la capacitación. A pesar de estos esfuerzos, es necesario realizar más análisis sobre qué tan bien los modelos previamente entrenados para preservar la privacidad transfieren sus representaciones aprendidas a tareas posteriores. Los modelos de última generación a veces no logran predecir acciones con precisión debido a sesgos o falta de representaciones diversas en los datos de entrenamiento. Estos desafíos exigen enfoques novedosos que aborden las preocupaciones sobre la privacidad y mejoren la transferibilidad de las representaciones aprendidas a diversas tareas de reconocimiento de acciones.

Para superar los desafíos que plantean las preocupaciones sobre la privacidad y los sesgos en los conjuntos de datos centrados en humanos utilizados para el reconocimiento de acciones, recientemente se presentó un nuevo método en NeurIPS 2023, la conocida conferencia, que presenta un enfoque innovador. Este trabajo recientemente publicado diseña una metodología para entrenar previamente modelos de reconocimiento de acciones utilizando una combinación de videos sintéticos que contienen humanos virtuales y videos del mundo real sin humanos. Al aprovechar esta novedosa estrategia de preentrenamiento denominada MAE-Align para preservar la privacidad (PPMA), el modelo aprende dinámicas temporales a partir de datos sintéticos y características contextuales de videos reales sin humanos. Este método innovador ayuda a abordar las preocupaciones éticas y de privacidad relacionadas con los datos humanos. Mejora significativamente la transferibilidad de las representaciones aprendidas a diversas tareas de reconocimiento de acciones posteriores, cerrando la brecha de rendimiento entre modelos entrenados con y sin datos centrados en el ser humano.

Concretamente, el método PPMA propuesto sigue estos pasos clave:

  1. Datos reales que preservan la privacidad: El proceso comienza con el conjunto de datos Kinetics, del cual se eliminan los humanos utilizando el marco HAT, lo que da como resultado el conjunto de datos No-Human Kinetics.
  2. Adición de datos sintéticos: Se incluyen videos sintéticos de SynAPT, que ofrecen acciones humanas virtuales que facilitan el enfoque en características temporales.
  3. Evaluación posterior: Seis tareas diversas evalúan la transferibilidad del modelo a través de diversos desafíos de reconocimiento de acciones.
  4. Preentrenamiento MAE-Align: Esta estrategia de dos etapas implica:
  • Etapa 1: Entrenamiento MAE para predecir valores de píxeles y aprender características contextuales del mundo real.
  • Etapa 2: Alineación supervisada utilizando tanto cinética no humana como datos sintéticos para el entrenamiento basado en etiquetas de acción.
  1. MAE-Align que preserva la privacidad (PPMA): Combinando la Etapa 1 (MAE capacitado en Cinética No Humana) con la Etapa 2 (alineación utilizando Cinética No Humana y datos sintéticos), PPMA garantiza un aprendizaje de representación sólido al tiempo que salvaguarda la privacidad.

El equipo de investigación realizó experimentos para evaluar el enfoque propuesto. Utilizando modelos ViT-B entrenados desde cero sin entrenamiento previo de ImageNet, emplearon un proceso de dos etapas: entrenamiento MAE durante 200 épocas seguido de alineación supervisada durante 50 épocas. En seis tareas diversas, PPMA superó a otros métodos de preservación de la privacidad en un 2,5 % en ajuste fino (FT) y un 5 % en sondeo lineal (LP). Aunque es ligeramente menos efectivo en tareas con un alto sesgo de escena-objeto, PPMA redujo significativamente la brecha de rendimiento en comparación con los modelos entrenados con datos reales centrados en humanos, lo que muestra la promesa de lograr representaciones sólidas y al mismo tiempo preservar la privacidad. Los experimentos de ablación resaltaron la eficacia del preentrenamiento MAE en el aprendizaje de características transferibles, particularmente evidente cuando se afina en tareas posteriores. Además, explorar la combinación de características contextuales y temporales, métodos como promediar los pesos del modelo y aprender dinámicamente mezclar proporciones mostraron potencial para mejorar las representaciones, abriendo vías para una mayor exploración.

Este artículo presenta PPMA, un nuevo enfoque de preservación de la privacidad para modelos de reconocimiento de acciones, que aborda los desafíos de privacidad, ética y sesgo en conjuntos de datos centrados en el ser humano. Aprovechando datos sintéticos y libres de humanos del mundo real, PPMA transfiere efectivamente representaciones aprendidas a diversas tareas de reconocimiento de acciones, minimizando la brecha de desempeño entre modelos entrenados con y sin datos centrados en humanos. Los experimentos subrayan la eficacia de PPMA para promover el reconocimiento de acciones al tiempo que garantizan la privacidad y mitigan las preocupaciones y sesgos éticos vinculados a los conjuntos de datos convencionales.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Mahmoud es un investigador de doctorado en aprendizaje automático. También posee un
Licenciatura en Ciencias Físicas y Maestría en
sistemas de telecomunicaciones y redes. Sus áreas actuales de
Las investigaciones se refieren a la visión por computadora, la predicción del mercado de valores y la profundidad.
aprendiendo. Produjo varios artículos científicos sobre la relación de personas.
identificación y estudio de la robustez y estabilidad de profundidades
redes.