¿Hemos llegado a la era del aprendizaje autosupervisado?
Los datos fluyen todos los días. La gente trabaja las 24 horas del día, los 7 días de la semana. Los puestos de trabajo se distribuyen por todos los rincones del mundo. Pero, aun así, hay muchos datos que quedan sin anotar, a la espera de su posible uso por parte de un nuevo modelo, una nueva formación o una nueva actualización.
O nunca sucederá. Nunca sucederá cuando el mundo funcione de manera supervisada.
El auge del aprendizaje autosupervisado en los últimos años ha revelado una nueva dirección. En lugar de crear anotaciones para todas las tareas, el aprendizaje autosupervisado divide las tareas en pretexto/preentrenamiento (consulte mi publicación anterior sobre preentrenamiento). aquí) tareas y tareas posteriores. Las tareas de pretexto se centran en extraer características representativas de todo el conjunto de datos sin la guía de ninguna anotación de verdad fundamental. Aun así, esta tarea requiere etiquetas generadas automáticamente a partir del conjunto de datos, generalmente mediante una ampliación extensiva de datos. Por lo tanto, utilizamos las terminologías aprendizaje sin supervisión (el conjunto de datos no está anotado) y aprendizaje autosupervisado (las tareas son supervisadas por etiquetas autogeneradas) indistintamente en este artículo.
El aprendizaje contrastivo es una categoría importante de aprendizaje autosupervisado.Utiliza conjuntos de datos sin etiquetar y pérdidas de información contrastiva codificada (por ejemplo, pérdida contrastiva, pérdida de InfoNCE, pérdida de tripletes, etc.) para entrenar la red de aprendizaje profundo. Los principales aprendizajes contrastivos incluyen SimCLR, SimSiam y la serie MOCO.
MOCO es una abreviatura de “momentum contrast” (contraste de momento). La idea central se escribió en el primer artículo de MOCO, que sugería la comprensión de un problema de aprendizaje autosupervisado de visión artificial, de la siguiente manera:
“[quote from original paper] La visión artificial, por el contrario, se ocupa más de la construcción de diccionarios, ya que la señal bruta se encuentra en un espacio continuo de alta dimensión y no está estructurada para la comunicación humana… Aunque están impulsados por diversas motivaciones, estos métodos (nota: aprendizaje reciente de representación visual) pueden considerarse como la construcción de diccionarios dinámicos… El aprendizaje no supervisado capacita a los codificadores para realizar búsquedas en el diccionario: una “consulta” codificada debe ser similar a su clave correspondiente y diferente a otras.El aprendizaje se formula como la minimización de una pérdida contrastiva”.
En este artículo, haremos una revisión detallada de MOCO v1 a v3:
- v1 — el documento “Contraste de momento para el aprendizaje de representaciones visuales no supervisadas” se publicó en CVPR 2020. El documento propone una actualización del impulso para los codificadores ResNet clave utilizando colas de muestra con pérdida de InfoNCE.
- v2 — el artículo “Bases de referencia mejoradas con aprendizaje contrastivo de momento” se publicó inmediatamente después, implementando dos mejoras en la arquitectura SimCLR: a) reemplazar la capa FC con un MLP de 2 capas y b) extender el aumento de datos original al incluir desenfoque.
- v3: el artículo “Un estudio empírico del entrenamiento de transformadores de visión autosupervisados” se publicó en ICCV 2021. El marco extiende el par clave-consulta a dos pares clave-consulta, que se usaron para formar una pérdida contrastiva simétrica al estilo SimSiam. La estructura principal también se extendió de solo ResNet a ResNet y ViT.