我正在尝试在一个pysparkdataframe中创建一个新列,该列基于另一个列的内容。另一列包含所有整数,我希望新列使用1或0进行编码。import pyspark.sql.functions as F
df2 = df2.withColumn('Industrial', F.when(F.col('CODE
我有一个dataframe,它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同,每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时,将字典(行)附加到列表中。for item in row.json_object['obj']: