在pyspark 2.4.0中,使用sampleBy函数可以根据指定的列和样本比例来获取样本数据。该函数可以用于数据抽样、数据分析和模型训练等场景。
sampleBy函数的语法如下:
sampleBy(col, fractions, seed=None)
参数说明:
样本大小的计算方式为:样本大小 = 样本比例 * 数据总量。
使用sampleBy函数的步骤如下:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.csv("data.csv", header=True, inferSchema=True)
fractions = {1: 0.5, 2: 0.3, 3: 0.2} # 指定每个值的样本比例
sampled_df = df.sampleBy("column_name", fractions, seed=42)
其中,"column_name"为样本抽样的依据列名。
推荐的腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云