0sn4vi7r1fob I00t.jpeg

Cómo extraer información personal de un corpus de texto usando NER como un profesional

Foto por Cristóbal Gower en desempaquetar

Introducción

Bien, imagina esto: tienes montañas de artículos, revistas y blogs repletos de información que deseas procesar. Ahora imagina que crees que también será útil para la comunidad si tienen la oportunidad de trabajar con estos datos. SIN EMBARGO, no querrás compartir los datos de inmediato, ya que pueden contener cierta información personal que no debería compartirse sin el consentimiento de esas personas.

Dado que no es viable pedir permiso a todas esas personas, usted decide utilizar sus habilidades y enmascarar cualquier información personal según las pautas de FERPA. Es común que las empresas oculten sus datos cuando los comparten externamente con fines de análisis o demostración y es más fácil con datos numéricos. Y aquí queremos hacer lo mismo pero con datos textuales.

Ahora bien, dado que estamos hablando de datos de texto, emplearemos una técnica de procesamiento del lenguaje natural (PLN). Ingrese a Named Entity Recognition (NER), un confiable detective de PNL que desbloquea esos tesoros de datos ocultos. El propósito aquí es identificar la información personal.

Profundicemos en cómo funciona NER, el concepto detrás del mecanismo NER, las formas de implementar NER, que…