Ahora me ves (CME): Extracción de modelos basada en conceptos |  de Dmitry Kazhdan |  septiembre de 2023

Aprovechando los modelos basados ​​en conceptos semisupervisados ​​con CME

CME se basa en una observación similar destacada en [3]donde se observó que los modelos básicos de CNN a menudo retienen una gran cantidad de información relacionada con conceptos en sus espacio oculto, que se puede utilizar para la extracción de información conceptual sin costo adicional de anotación. Es importante destacar que este trabajo consideró el escenario donde los conceptos subyacentes son desconocidoy tuvo que ser extraído del espacio oculto de un modelo sin supervisión.

Con CME, hacemos uso de la observación anterior y consideramos un escenario en el que tener conocimiento de los conceptos subyacentes, pero solo tenemos una pequeña cantidad de anotaciones de muestra para cada uno de estos conceptos. similar a [3]CME se basa en una CNN básica previamente entrenada y en una pequeña cantidad de anotaciones conceptuales para extraer más anotaciones conceptuales en un moda semi-supervisada, Como se muestra abajo:

Procesamiento del modelo CME. Imagen del autor.

Como se muestra arriba, CME extrae la representación del concepto utilizando el espacio oculto de un modelo previamente entrenado en un post-hoc moda. Se dan más detalles a continuación.

Capacitación sobre codificadores conceptuales: En lugar de entrenar codificadores de conceptos desde cero con los datos sin procesar, como se hace en el caso de los CBM, configuramos el entrenamiento de nuestro modelo de codificador de conceptos en un moda semi-supervisadautilizando el espacio oculto de CNN básico:

  • Comenzamos preespecificando un conjunto de capas L de la CNN básica para usar en la extracción de conceptos. Esto puede variar desde todo capas, hasta solo las últimas, dependiendo de la capacidad informática disponible.
  • A continuación, para cada concepto, entrenamos un modelo separado sobre el espacio oculto de cada capa en L para predecir los valores de ese concepto desde el espacio oculto de la capa
  • Procedemos a seleccionar el modelo y la capa correspondiente con la mejor precisión del modelo como el “mejor” modelo y capa para predecir ese concepto.
  • En consecuencia, al hacer predicciones conceptuales para un concepto iprimero recuperamos la representación del espacio oculto de la mejor capa para ese concepto y luego la pasamos a través del modelo predictivo correspondiente para su inferencia.

En general, el codificador de concepto La función se puede resumir de la siguiente manera (asumiendo que hay k conceptos en total):

Ecuación del codificador CME Concept. Imagen del autor.
  • Aquí, p-hat en el LHS representa el concepto de función del codificador.
  • El gramoᵢ los términos representan los modelos de concepto de espacio oculto entrenados sobre los espacios ocultos de diferentes capas, con i que representa el índice de conceptos, que va de 1 a k. En la práctica, estos modelos pueden ser bastante simples, como regresores lineales o clasificadores potenciados por gradiente.
  • El F(X) Los términos representan los submodelos de la CNN básica original, extrayendo la representación oculta de la entrada en una capa particular.
  • En los dos casos anteriores, Los superíndices especifican las “mejores” capas en las que operan estos dos modelos.

Capacitación en procesadores de conceptos: El entrenamiento del modelo de procesador de conceptos en CME se configura mediante modelos de entrenamiento que utilizan etiquetas de tareas como resultados, y codificador de concepto predicciones como entradas. Es importante destacar que estos modelos funcionan con una representación de entrada mucho más compacta y, en consecuencia, pueden representarse directamente a través de interpretable modelos, como los árboles de decisión (DT) o los modelos de regresión logística (LR).