Detección de duplicados con GenAI. Cómo el uso de LLM y técnicas GenAI puede… | por Ian Ormesher

Cómo el uso de LLM y técnicas GenAI puede mejorar la deduplicación

Trama del vecino más cercano 2D UMAP Musicbrainz 200K

Los datos de los clientes suelen almacenarse como registros en los sistemas de gestión de relaciones con los clientes (CRM). Los datos que uno o más usuarios introducen manualmente en dichos sistemas con el tiempo dan lugar a la replicación de datos, la duplicación parcial o la duplicación difusa. Esto, a su vez, significa que ya no existe una única fuente de verdad para los clientes, contactos, cuentas, etc. Los procesos comerciales posteriores se vuelven cada vez más complejos y artificiales sin una correspondencia única entre un registro en un CRM y el cliente objetivo. Los métodos actuales para detectar y desduplicar registros utilizan técnicas tradicionales de procesamiento del lenguaje natural conocidas como coincidencia de entidades. Pero es posible utilizar los últimos avances en modelos de lenguaje de gran tamaño e inteligencia artificial generativa para mejorar enormemente la identificación y reparación de registros duplicados. En conjuntos de datos de referencia comunes, encontré una mejora en la precisión de las tasas de desduplicación de datos del 30 por ciento utilizando técnicas de procesamiento del lenguaje natural a casi el 60 por ciento utilizando mi método propuesto.

Quiero explicar la técnica aquí con la esperanza de que otros la encuentren útil y la utilicen para sus propias necesidades de deduplicación. Es útil para otros escenarios en los que desea identificar registros duplicados, no solo para los datos del Cliente. También escribí y publiqué un artículo de investigación sobre esto que puedes ver en Arxiv, si quieres saber más en profundidad:

La tarea de identificar registros duplicados a menudo se realiza mediante comparaciones de registros por pares y se denomina “Coincidencia de entidades” (EM). Los pasos típicos de este proceso serían:

Preparación de datos
Generación de candidatos
Bloqueo
Pareo
Agrupación

Preparación de datos

La preparación de datos es la limpieza de los datos e implica aspectos como la eliminación de caracteres no ASCII, la capitalización y la tokenización del texto. Este es un paso importante y necesario para los algoritmos de comparación de NLP que se utilizan más adelante en el proceso y que no funcionan bien con mayúsculas y minúsculas o caracteres no ASCII.

Generación de candidatos

En el método EM habitual, produciríamos registros candidatos combinando todos los registros de la tabla consigo mismos para producir un producto cartesiano. Eliminarías todas las combinaciones que estén en fila consigo misma. Para muchos de los algoritmos de coincidencia de PNL, comparar la fila A con la fila B es equivalente a comparar la fila B con la fila A. En esos casos, puede salirse con la suya manteniendo solo uno de esos pares. Pero incluso después de esto, todavía te quedan muchos registros de candidatos. Para reducir este número se suele utilizar una técnica llamada “bloqueo”.

Bloqueo

La idea del bloqueo es eliminar aquellos registros que sabemos que no pueden ser duplicados entre sí porque tienen valores diferentes para la columna “bloqueada”. Por ejemplo, si estuviéramos considerando registros de clientes, una columna potencial para bloquear podría ser algo como “Ciudad”. Esto se debe a que sabemos que incluso si todos los demás detalles del registro son lo suficientemente similares, no pueden ser el mismo cliente si se encuentran en ciudades diferentes. Una vez que hemos generado nuestros registros candidatos, usamos el bloqueo para eliminar aquellos registros que tienen valores diferentes para la columna bloqueada.

Pareo

Después del bloqueo, ahora examinamos todos los registros candidatos y calculamos las métricas de valor de atributo tradicionales basadas en similitud de PNL con los campos de las dos filas. Usando estas métricas, podemos determinar si tenemos una posible coincidencia o no coincidencia.

Agrupamiento

Ahora que tenemos una lista de registros candidatos que coinciden, podemos agruparlos en grupos.

El método propuesto consta de varios pasos, pero lo más importante es que ya no es necesario realizar el paso de “Preparación de datos” o “Generación de candidatos” de los métodos tradicionales. Los nuevos pasos son:

Crear oraciones de coincidencia
Cree vectores de incrustación de esas oraciones coincidentes
Agrupamiento

Crear oraciones coincidentes

Primero se crea una “Oración de coincidencia” concatenando los atributos que nos interesan y separándolos con espacios. Como ejemplo, supongamos que tenemos un registro de cliente que se ve así:

Detección de duplicados con GenAI. Cómo el uso de LLM y técnicas GenAI puede… | por Ian Ormesher | Jul, 2024

ByEquipo de 7 minutos

Cómo el uso de LLM y técnicas GenAI puede mejorar la deduplicación

Preparación de datos

Generación de candidatos

Bloqueo

Pareo

Agrupamiento

Crear oraciones coincidentes

Crear vectores de incrustación

Agrupación

Visualizando la agrupación

Recursos

By Equipo de 7 minutos

Related Post

Una implementación del kit de herramientas de gobernanza de agentes de Microsoft para el uso seguro de herramientas de agentes de IA con políticas, aprobaciones, registros de auditoría y controles de riesgos

StepFun lanza el paso 3.7 Flash: un modelo de lenguaje de visión MoE de 198 mil millones para agentes de codificación y flujos de trabajo de búsqueda

Una implementación de codificación en Loguru para diseñar tuberías de registro de Python robustas, estructuradas, concurrentes y listas para producción

You missed

El superchip de PC se enfrenta a Apple e Intel

El Ayuntamiento de Torrevieja destina 128.000 euros en ayudas directas a los comerciantes de La Plasa durante las obras de reforma del Mercado – El Líder

¿Rue muere en el final de la tercera temporada de ‘Euphoria’? Su destino explicado – Hollywood Life

Vida espejo: los científicos chocan por la amenaza de las bacterias diseñadas en el laboratorio