Cómo utilizar IA generativa y Python para crear conjuntos de datos ficticios de diseñador |  de Mia Dwyer |  abril de 2024

Una guía sencilla para aplicaciones prácticas

¿Alguna vez ha necesitado un conjunto de datos que no existe fácilmente? ¿Deseaba generar fácilmente datos que coincidan con sus requisitos exactos para entrevistar a posibles candidatos en ciencia de datos, pruebas y desarrollo de software o modelos de capacitación? ¿O qué tal simplemente querer utilizar los datos correctos para demostrar habilidades y técnicas para un artículo de Medium (que no viole las leyes de derechos de autor)?

¡Ingrese datos ficticios! 📊✨

Imagen creada por mí, usando DALL-E

Hasta hace poco, crear conjuntos de datos ficticios era algo tedioso y arduo; los técnicos entre nosotros podían generarlos con código Python escrito por expertos, pero codificar todos sus requisitos a mano puede llevar mucho tiempo y tiene una alta barrera de entrada técnica.

Digamos que tenemos un caso de uso en el que queremos probar a un candidato que solicita ciencia de datos para una fintech, y hay patrones del mundo real que queremos que puedan identificar y discutir, pero por razones de privacidad no podemos compartir datos reales de transacciones de clientes. externamente.

¿La solución? Aproveche el poder de la IA generativa para crear de manera experta código Python complejo para generar nuestros ✨Conjuntos de datos ficticios de diseñador✨

Veamos cómo podemos pedirle a GPT4 que genere un conjunto de datos que cumpla con todos nuestros requisitos exactos, y algo tediosos:

Hi there! You are my expert python programmer and data scientist extraordinaire. 
I need to generate a "designer dummy dataset" that meets the following conditions and specifications,
can you please write the python code for me to generate it?

The dataset is transactions in 2019, 2020, and 2021
I want the dataset to contain the following columns: id, transaction_timestamp, user_id, amount, merchant, network, card_type.
The merchant_name should be either: Walmart, Netflix.com, Starbucks, Home Depot, 7/11, Dunkin Donuts, Trader Joe's, and Amazon.com
The user_id should be between 1 and 100 - the amount should be 9.99 for every Netflix.com purchase, less than $10 for Starbucks and Dunkin Donuts, between $25 and 500 for Walmart, Amazon.com, and Home Depot, less than $25 for 7/11, and between $10 and $250 for Trader Joe's
There…