如何从dataframe中选择多列并转储到pyspark中的列表

在PySpark中，DataFrame是一种分布式数据集合，类似于传统数据库中的表格。要从DataFrame中选择多列并将其转换为Python列表，你可以使用以下步骤：

选择多列：使用select方法选择你感兴趣的列。
转换为RDD：将DataFrame转换为RDD（弹性分布式数据集）。
映射到列表：使用map操作将每一行转换为你想要的格式，并收集到一个列表中。

以下是一个示例代码，展示如何从DataFrame中选择两列（例如，'column1'和'column2'），并将它们转换为列表：

from pyspark.sql import SparkSession

# 初始化SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()

# 假设df是已经存在的DataFrame
# df = spark.read.option("header", "true").csv("your_file.csv")

# 选择多列
selected_columns_df = df.select('column1', 'column2')

# 将DataFrame转换为RDD
rdd = selected_columns_df.rdd

# 映射每一行到元组，并收集到列表
result_list = rdd.map(lambda row: (row['column1'], row['column2'])).collect()

# 打印结果
print(result_list)

# 停止SparkSession
spark.stop()

在这个例子中，result_list将是一个包含元组的列表，每个元组代表DataFrame中的一行，包含'column1'和'column2'的值。

应用场景：

数据分析：当你需要对数据进行预处理，比如选择特定的特征用于机器学习模型时。
数据导出：当你需要将数据从Spark环境中导出到其他系统或工具时。
数据清洗：在数据清洗过程中，你可能需要选择特定的列进行分析或进一步处理。

注意事项：

当使用collect()方法时，所有的数据都会被拉取到驱动程序节点上，这可能会导致内存溢出错误，特别是在处理大型数据集时。在这种情况下，可以考虑使用take()或limit()方法来获取数据的一个子集。
如果DataFrame中的列包含复杂的数据类型（如嵌套的结构或数组），可能需要额外的处理来正确地转换它们。

参考链接：PySpark DataFrame Documentation

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。我能够将Hive表导入到： >>> from pyspark.sql import HiveContext >>> hiveContext = HiveContext(sc) >>> dataframe = hiveContext.sql("SELECT * FROM my_table") >>> type(dataframe) <class 'pyspark.sql.dataframe.D

浏览 1提问于2016-10-06得票数 4

回答已采纳

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如： [1] [1,2] [1,2,3] [2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的列表。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。因此，对于第一次迭代：删除元素1，结果如下： [] [2] [2,3

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

2回答

将pyspark dataframe插入到现有的分区配置子表中

、

我有一个hive表，它是按插入时间列分区的。我有一个pyspark dataframe，除了已分区的列之外，它与表具有相同的列。当表未分区时，以下操作效果很好： df.insertInto('tablename',overwrite=True) 但是我不知道如何从pyspark插入到一个特定的分区。下面尝试过： df.insertInto('tablename',overwrite=True,partition(inserttime='20170818-0831')) 但它不起作用，失败的原因是 SyntaxError: non-keyw

浏览 0提问于2017-09-16得票数 1

1回答

PySpark - Spark数组与DataFrame列表是否不同？

、、、、

如果我有一个包含arrays的Spark，我可以通过DataFrame在这些数组上使用Python List方法吗？如何将Spark DataFrame array<double>转换为Python列表？下面是一个示例，其中包含一些UDF。我不确定为什么使用最大值可以，但是使用len就不行了。最后，我想用原始数组列中的采样值创建一个新列。这也会得到一个关于期望两个参数的错误，如果你能帮助的话也会得到加分！我有以下Spark DataFrame from pyspark.sql.functions import udf from pyspark.sql import Row fr

浏览 1提问于2016-10-28得票数 4

回答已采纳

2回答

从pyspark中的一个非常大的数据帧中选择随机列

、

我有一个pyspark格式的dataframe，大约有150列。这些列是从连接不同的表中获得的。现在，我的要求是以特定的顺序将数据帧写入文件，例如，首先写入1到50列，然后是第90到110列，最后是第70和72列。也就是说，我只想选择特定的列，并重新排列它们。我知道其中一种方法是使用df.select(“给出你的列顺序”)，但在我的例子中，列非常大，不可能在“select”中写出每一个列的名称。请告诉我如何在pyspark中实现这一点。注意-我无法提供任何样本数据，因为列的数量非常大，并且在我的情况下，列号是主要的道路拦路器。

浏览 1提问于2017-07-14得票数 0

回答已采纳

1回答

关于在PySpark中写入拼图的问题

、、

在PySpark中将csv文件转换为parquet时遇到问题。当转换相同模式的多个文件时，它们不具有相同的模式，因为有时数字字符串将被读取为浮点型，其他字符串将被读取为整数，等等。列的顺序似乎也有问题。似乎当编写具有相同列的数据帧时，但是以不同的顺序排列以拼接，那么这些拼接就不能被加载到相同的语句中。如何将dataframe写入parquet，以使所有列都以字符串类型存储？如何处理列的顺序？在写入拼图之前，我是否应该将所有数据帧的列重新排列为相同的顺序？

浏览 23提问于2021-01-20得票数 0

1回答

使用整行udf过滤Pyspark Dataframe

、、

有没有办法选择整行作为一列输入到Pyspark过滤器udf中？我有一个复杂的过滤函数"my_filter“，希望应用于整个DataFrame： my_filter_udf = udf(lambda r: my_filter(r), BooleanType()) new_df = df.filter(my_filter_udf(col("*")) 但 col("*") 引发错误，因为这不是有效的操作。我知道我可以将dataframe转换为RDD，然后使用RDD的filter方法，但我不希望将其转换为RDD，然后再转换回dataframe。我的DataF

浏览 2提问于2018-08-28得票数 4

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

如何连接Pyspark中的特定列

、、

在pandas中，Pyspark中特定列连接由以下代码执行： datamonthly=datamonthly.merge(df[['application_type','msisdn','periodloan']],how='left',on='msisdn') 我使用Pyspark尝试了类似的逻辑 datamonthly = datamonthly.join(datalabel , datamonthly['msisdn'] == datalabel['msisd

浏览 13提问于2021-08-30得票数 1

回答已采纳

1回答

方法用于PySpark DataFrame的所有行。

、、

浏览 0提问于2018-04-26得票数 0

回答已采纳

1回答

在pyspark数据帧中用数字替换字符串

、

我刚接触pyspark，我想在pyspark dataframe列中动态地用数字替换名称，因为我的dataframe中有超过500,000个名称。如何继续？ ---------- | Name | ---------- | nameone| ---------- | nametwo| ---------- 应该变成 -------- | Name | -------- | 1 | -------- | 2 | --------

浏览 9提问于2019-07-25得票数 0

1回答

使用基于列的发生的Pyspark数据框架过滤器

、、、

我有pyspark dataframe，我想过滤包含列A和B的dataframe。现在，我只想得到B的值，其中A的出现次数大于某个数字N。 A列是like和id，它们可以有重复的值。现在我正在做group by，过滤和使用值列表，效率不高，所以我在寻找有效的解决方案。示例 N=5 输入预期输出您可以看到，由于阈值为5，因此只有列A的ID1和ID3被选中，其余的都被排除在外。

浏览 0提问于2018-08-27得票数 1

1回答

如何在PySpark中获取列的最后值

、、

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。假设我们有一个带有A列的dataframe df。我想要创建另一个dataframe，它只包含最后一个值为A的一个列(这里的最后一个值是指列A底部的真正记录)。我已经试过了 df["A"][-1]，但我错了。请注意，如果可能的话，我希望可以为PySpark和Pyspark中的Python代码提供一个解决方案。

浏览 1提问于2019-06-21得票数 0

回答已采纳

1回答

列或行最大限制的Pyspark数据帧

、、

我有一个在databricks中创建的pyspark笔记本。我有一个dataframe，需要动态添加列，目前列数是186。当我到达python行的长度为10000时，我看不到None、Lit等的颜色编码，并且我的notebook单元格在行大小达到10000之后无法识别size列声明。 python中的一行有大小限制吗？如果是这样的话，有没有更好的方法将这些列添加到数据帧中，使用列表？谢谢, 尤娃

浏览 17提问于2019-03-19得票数 0

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。 1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

1回答

如何在pyspark中解压list类型的列

、、、

浏览 29提问于2020-01-24得票数 0

回答已采纳

2回答

PySpark -拆分所有列中的数组并合并为行

、

在PySpark中有没有一种方法可以同时分解所有列中的数组/列表，并将分解后的数据分别合并/压缩到行中？根据其他因素，列数可以是动态的。从dataframe |col1 |col2 |col3 | |[a,b,c]|[d,e,f]|[g,h,i]| |[j,k,l]|[m,n,o]|[p,q,r]| 到dataframe |col1|col2|col3| |a |d |g | |b |e |h | |c |f |i | |j |m |p | |k |n |q | |l |o |r |

浏览 17提问于2018-02-27得票数 1

回答已采纳

2回答

从pyspark: ValueError中的列表中创建数据

、、、

我正在尝试将一个列表转换成一个数据列表，这样我就可以将它作为一个列加入到一个更大的dataframe中。列表中的数据是随机生成的名称，如下所示： from faker import Faker from pyspark.sql.functions import * import pyspark.sql.functions as F from pyspark.sql.types import * faker = Faker("en_GB") list1 = [faker.first_name() for _ in range(0, 100)] firstname = sc.p

浏览 2提问于2021-11-24得票数 1

回答已采纳

1回答

Pyspark Dataframe正在复制列中以前的最高值(int或date

、、

我有一个Pyspark Dataframe，在amount列中有以下值：input dataframe 之前的最高值必须复制到后面的记录(行)中，直到在列中遇到更高的值，依此类推。 amount列中的期望值为：output dataframe 有人能帮帮我吗。提前谢谢。

浏览 12提问于2021-09-17得票数 0

1回答

如何从PySpark中的向量列中提取浮点数？

、、、、

我的星火DataFrame有以下格式的数据： printSchema()显示每一列都是vector类型的。我尝试使用下面的代码从[和]中获取值(对于1列col1)： from pyspark.sql.functions import udf from pyspark.sql.types import FloatType firstelement=udf(lambda v:float(v[0]),FloatType()) df.select(firstelement('col1')).show() 但是，如何将其应用于df的所有列？

浏览 0提问于2020-02-18得票数 1

回答已采纳

3回答

如何将数组(即列表)列转换为向量

、、、、

这个问题的简短版本！考虑下面的片段(假设spark已经设置为某些SparkSession)： from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) 注意，温度字段是一个浮子列表。我想将这些浮点列表转换为MLlib

浏览 9提问于2017-02-09得票数 75

回答已采纳

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的数据帧的模式是多层的(即每一行都包含结构数组的结构等)，所以我认为将所有存储桶合并到一个数据帧中的唯一

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： calculated_signal_df = ( spark.read.format("snowflake") .options(**sfOptions) .option("query", "select * from iot.calculated_signal") .load() ) calculated_signal_df = calculated_s

浏览 1提问于2021-04-21得票数 0

2回答

检查给定列表中的元素是否出现在DataFrame的数组列中

、、、、

我有以下在熊猫数据帧上工作的函数 def event_list(df,steps): df['steps_present'] = df['labels'].apply(lambda x:all(step in x for step in steps)) return df DataFrame有一个名为labels的列，值为list。此函数接受dataframe和Steps (这是一个列表)，如果参数列表中的所有元素都存在于dataframe列中，则输出具有新列Steps的dataframe value in df['labels

浏览 136提问于2021-04-02得票数 1

回答已采纳

1回答

如何使用列表重命名pyspark dataframe的所有列

、

我有一个现有的pyspark dataframe，大约有200列。我有一个列名的列表(按照正确的顺序和长度)。如何在不使用structtype的情况下将列表应用到dataframe？

浏览 73提问于2021-09-02得票数 1

1回答

动态列.withColumn Python DataFrame

、、、、

我想在我的星火DataFrame上动态地应用. list中的列名。 from pyspark.sql.functions import col from pyspark.sql.types import BooleanType def get_dtype(dataframe,colname): return [dtype for name, dtype in dataframe.dtypes if name == colname][0] def get_matches(dataframe): return [x for x in dataframe.columns if ge

浏览 3提问于2020-04-21得票数 1

回答已采纳

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。不幸的是，对需求的更改意味着代码在任何情况下都不能使用pandas udf或映射到rdd。我需要直接在pyspark中执行相同的函数。连续字符删除函数逐字读取字符串，检查单词是否在例外列表中，如果不在例外列表中，则逐个字符移动，将其与前一个字

浏览 7提问于2021-03-15得票数 0

回答已采纳

2回答

从列表中添加列的pySpark

、、、、

我有一个数据文件名，并希望根据列表中的值向它添加列。我的值列表将从3-50个值变化。我是pySpark新手，我试图将这些值作为新列(空)附加到我的df中。我看到了关于如何将一列添加到dataframe中的推荐代码，而不是从列表中添加多列的代码。 mylist = ['ConformedLeaseRecoveryTypeId', 'ConformedLeaseStatusId', 'ConformedLeaseTypeId', 'ConformedLeaseRecoveryTypeName', 'ConformedLea

浏览 2提问于2020-05-12得票数 1

回答已采纳

1回答

分组依据列表中的元素

、、

浏览 4提问于2019-10-09得票数 0

2回答

将嵌入到Dataframe中的行RDD转换为列表

、、、

IPYNB 我有如图所示的Dataframe user_recommended。recommendations列是如下所示的PySpark RDD： In[10]: user_recommended.recommendations[0] Out[10]: [Row(item=0, rating=0.005226806737482548), Row(item=23, rating=0.0044402251951396465), Row(item=4, rating=0.004139747936278582)] 我想把Python转换成recommendati

浏览 24提问于2019-03-12得票数 0

1回答

在PySpark DataFrames中，为什么setitem没有完全实现？

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列： import pyspark.sql.functions as F df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果： TypeError: 'DataFrame' object does not support item assignment 相反，这样做的实现方法是 df = df.withColumn('newcol', F.

浏览 1提问于2016-07-28得票数 1

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。 @column_condition_partial(engine=SparkDFExecutionEngine) def _spark(cls, column, ts_formats, **kwargs): return column.isin([3]) # need to replace the abov

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

pyspark有条件地解析固定宽度文本文件

、、、

所以我有一个固定宽度文件，在检查其中某个变量是'01‘还是'02’之前，我不知道它的格式。因此，我正在尝试创建这样的东西： <code>A0</code> 基本上，如果rpt编号不是01，列数就会加倍。我非常不确定如何在pyspark中做到这一点

浏览 7提问于2018-12-18得票数 0

2回答

如何修复异常‘无效的参数，而不是字符串或列’，同时连接两个数据文件在火花公子？

、、

我正在尝试加入两个数据处理程序： df1，列： document_nbr, line_id, product_id, product_size, reference_nbr, local_cd, invoice_local_cost, invoice_delivery_id, created_by_id, transaction_ind, etl_tmst, record_created_tmst, record_updated_tmst, source_id, line_number, etl_date 加入df1和df2： df2栏： document_nbr, line_id, vari

浏览 1提问于2022-05-10得票数 -1

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。我试着用这个方法构造矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。 coocc = psdf.T.dot(psdf) coocc 我得到了这个错误 TypeError: Unsupported type DataFrame 我查过医生了。 pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化，但它并不将dataframe转换为串联，因为我的dataframe有多个列。有没有办法将py

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

Pyspark使用列表计算整个列的平均值

、、、

我有一个pyspark dataframe，它有一个列，其中包含如下列表： | value | |:---- | | ["1", "23", "18", "9"] | | ["62", "47", "6"] | |["34", "61", "5"]. | 有没有一种方法可以用pyspark计算总体的平均值？因此，我希望具有以下值: 2

浏览 90提问于2020-12-19得票数 1

回答已采纳

1回答

在Dataframe上使用where()或filter()时出错

、、、

我想检查Dataframe列first_id中的值是否在我所拥有的in的python列表中，如果是，那么它应该传递过滤器。 first_id_list = [1,2,3,4,5,6,7,8,9] other_ids = id_dataframe.where(ids["first_id"] in first_id_list).select("other_id") 我用python编写，id_dataframe是PySpark Dataframe，first_id_list是整数的python列表。我得到的错误是： ValueError: Cannot conv

浏览 5提问于2019-11-19得票数 0

回答已采纳

1回答

Dilema:使表列不排序的最佳方法

、、

我正在使用Kotlin创建android应用程序。我有全功能的多列排序。当我单击表标题列时，它将索引添加到排序列列表中。它对两种方式(上升和下降)进行排序。点击它可以改变方向。一切都很好。但是，我想知道从一列中删除排序的最佳解决方案是什么。我没有什么想法，但听起来不太好：第三列上的单击该列上的删除排序。列排序时可见的添加按钮。按钮从排序列表中移除列。我需要一些帮助，因为我不知道如何很好地实现这个特性。 Edit1: 忘了说排序发生在后端。在android中，我只设置参数，需要对哪些列进行排序，然后将GET请求发送到服务器。作为响应，我得到排序的数据。

浏览 0提问于2020-02-19得票数 0

回答已采纳

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

、、、、

下面是创建pyspark.sql DataFrame的代码 import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=['a','b','c']) sparkdf = sqlContext.createDataFrame(df, samplingR

浏览 0提问于2015-08-11得票数 6

1回答

如何解决？(将列表添加到列dataframe pyspark)

、、、

如果我已经存在数据帧，且我想要向数据框中添加新列 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) from pyspark.sql import Row numbers=[1,2,30,4] rdd1 = sc.parallelize(li) row_rdd = rdd1.map(lambda x: Row(x)) test_df = sqlContext.createDataFrame(row_rdd,['numbers']) ------------------------------------

浏览 0提问于2020-10-05得票数 1

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？任何帮助都将不胜感激。

浏览 57提问于2021-06-18得票数 2

回答已采纳

1回答

使用逻辑和超过条件列表的PySpark DataFrame过滤器-- Numpy所有等效条件

、、、、

如果所有列的值为零，我将尝试过滤PySpark数据的行。我希望使用这样的方法(使用numpy函数np.all() )： from pyspark.sql.functions import col df.filter(all([(col(c) != 0) for c in df.columns])) 但我得到了ValueError： ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~'

浏览 3提问于2016-12-20得票数 16

回答已采纳

1回答

与丹克/潘达斯和火花公子的地板兼容性

、、、、

这是与相同的问题，但接受的答案对我不起作用。尝试：我尝试将一个dataframe保存为拼花格式，然后用火花读取它。问题：时间戳列不能由pyspark解释我做了什么，我尝试将hfds中的dataframe保存为 import dask.dataframe as dd dd.to_parquet(ddf_param_logs, 'hdfs:///user/<myuser>/<filename>', engine='pyarrow', flavor='spark') 然后我用pyspark读取了该文件： sdf = sp

浏览 4提问于2020-01-28得票数 2

回答已采纳

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。 import pyspark.sql.functions as sf df.filter(sf.col('column_with_lists') != []) 返回以下错误： Py4JJavaError: An error occurred while calling o303.notEqual. : java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，

浏览 17提问于2017-02-24得票数 7

回答已采纳

4回答

如何在Spark中压缩两个数组列

、、、、

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下： df['column_1']: 'abc, def, ghi' df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据都是这样的。 df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地使用了下面的代码，但是dataframe相当大，运行整个datafra

浏览 2提问于2019-01-21得票数 9

回答已采纳

2回答

通过JDBC从pyspark dataframe插入到外部数据库表时的重复键更新

、、、、

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。 url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的总和来更新列值(不在主键中)。我尝试过不同的模式(追加、覆盖) DataFrameWriter.jdbc()函数。我的问题是，我们如何像在mysql中使用ON DUPLICATE K

浏览 4提问于2015-09-16得票数 12

1回答

将具有值列表的列转换为pyspark中的单个列。

、、、

我有这种格式的数据 df08.select('scaled').show(5, truncate=False) +--------------------------------------------------------------------------------------------------------------------------------+ |scaled

浏览 5提问于2022-04-24得票数 0