Cómo construir un canal de aprendizaje automático e ingeniería de datos de un extremo a otro con Apache Spark y PySpark
!pip install -q pyspark==3.5.1 desde pyspark.sql importa SparkSession, funciona como F, Window desde pyspark.sql.types importa IntegerType, StringType, StructType, StructField, FloatType desde pyspark.ml.feature importa StringIndexer, VectorAssembler desde pyspark.ml.classification importa LogisticRegression desde pyspark.ml.evaluación importa MulticlassClassificationEvaluator spark = (SparkSession.builder.appName(“ColabSparkAdvancedTutorial”) .master(“local[*]”) .config(“spark.sql.shuffle.partitions”, “4”) .getOrCreate()) print(“Versión de Spark:”, spark.version) datos = [
(1, “Alice”, “IN”, “2025-10-01”, 56000.0, “premium”),
(2, “Bob”, “US”, “2025-10-03”, 43000.0, “standard”),
(3, “Carlos”, “IN”, “2025-09-27”, 72000.0, “premium”),
(4, “Diana”, “UK”, “2025-09-30”, 39000.0, “standard”),
(5, “Esha”, “IN”, “2025-10-02”, 85000.0, “premium”),
(6, “Farid”, “AE”, “2025-10-02”, 31000.0, “basic”),
(7, “Gita”, “IN”, “2025-09-29”, 46000.0, “standard”),
(8, “Hassan”, “PK”, “2025-10-01”, 52000.0, “premium”),
]
esquema = Tipo de estructura ([
StructField(“id”, IntegerType(), False),
StructField(“name”, StringType(), True),
StructField(“country”, StringType(), True),
StructField(“signup_date”, StringType(), True),
StructField(“income”, FloatType(), True),
StructField(“plan”, StringType(), True),
]) df = spark.createDataFrame(datos, esquema) df.show()