00bibf5pjxj6krgp3.jpeg

¿Cuándo pueden las jerarquías de código mejorar la codificación de destino para características categóricas de alta cardinalidad?

12 minutos de lectura

hace 14 horas

Foto por Jessica Alves en desempaquetar

W.¿En qué barrio vives? ¿Qué medicamento le recetaron? ¿Por qué cancelaste tu suscripción de streaming? Hoy en día, existe un código para eso, almacenado en bases de datos de cualquier agencia gubernamental, empresa, etc. con la que interactúes. Si trabaja con datos, probablemente encontrará muchos de estos códigos. Cuando pueden tomar muchos valores posibles, dichos códigos se denominan «características categóricas de alta cardinalidad”.

Algunas categóricas de alta cardinalidad tienen una jerárquico estructura. La Figura 1 muestra dicha estructura, el Sistema de Clasificación Industrial de América del Norte (NAICS), que utiliza el gobierno de EE. UU. para clasificar las empresas. [1].

Figura 1: Ilustración de la estructura jerárquica de Sistema de clasificación industrial de América del Norte (SCIAN) códigos [1], que categorizan las empresas por área de actividad. Hay muchos códigos específicos (en la parte inferior de la “pirámide”), que se agrupan en clases más generales (los niveles superiores). Se muestra el ejemplo de una tienda de bagels. Imagen del autor.

Muchos conjuntos de códigos se pueden representar como una jerarquía. Por ejemplo, las regiones geográficas de EE. UU. se pueden dividir en áreas más pequeñas con muchos valores de código (códigos postales) o muy grandes con pocos (Regiones del censo de EE. UU., por ejemplo “Oeste”). O bien, la Asociación Médica Estadounidense define ~475 áreas de especialización del proveedorque se resumen en clasificaciones, agrupaciones y secciones.

Aunque las categorías de alta cardinalidad (jerárquicas o no) tienen demasiados grados de libertad para su incorporación directa en modelos de aprendizaje automático, los métodos de codificación o incrustación pueden aprovechar la información de estas características. La codificación de destino (también llamada “codificación media” o “codificación de impacto”) es una opción popular para los modelos basados ​​en árboles. Las redes neuronales a menudo utilizan incrustaciones de entidades que asignan códigos a un vector de menor dimensionalidad. Sin embargo, estas técnicas no incorporan información de estructuras de código jerárquicas.

Existen algunos métodos de investigación interesantes para categorías jerárquicas en el aprendizaje automático, por ejemplo, tratar agrupaciones de alto nivel de una manera análoga a los efectos aleatorios en el modelado mixto. [2]. Pero su uso aún no está generalizado.

Una opción más simple relevante para los modelos basados ​​en árboles es sugerida por un Artículo Hacia la ciencia de datos de Daniele Micci-Barreca, que involucra combinar información general del grupo en