Pyspark:拆分Spark Dataframe字符串列并循环字符串列表，将匹配的字符串分成多列

Pyspark是一种基于Python的Spark编程接口，它提供了处理大规模数据集的能力。在Pyspark中，可以使用Spark Dataframe来处理结构化数据。对于拆分Spark Dataframe字符串列并循环字符串列表，将匹配的字符串分成多列的需求，可以采取以下步骤：

导入必要的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import split, explode

创建SparkSession对象：

spark = SparkSession.builder.appName("StringColumnSplit").getOrCreate()

加载数据并创建Spark Dataframe：

data = [("John,Doe",), ("Jane,Smith",), ("Tom,Hanks",)]
df = spark.createDataFrame(data, ["name"])

使用split函数将字符串列拆分成列表：

df = df.withColumn("name_list", split(df.name, ","))

使用explode函数将列表展开为多行：

df = df.withColumn("name_exploded", explode(df.name_list))

使用split函数将匹配的字符串再次拆分成多列：

df = df.withColumn("first_name", split(df.name_exploded, ",")[0])
df = df.withColumn("last_name", split(df.name_exploded, ",")[1])

删除中间列并显示结果：

df = df.drop("name_list", "name_exploded")
df.show()

这样，你就可以将Spark Dataframe字符串列拆分并循环字符串列表，将匹配的字符串分成多列。

Pyspark的优势在于它能够处理大规模数据集，并且提供了丰富的数据处理和分析功能。它可以与其他Spark生态系统组件无缝集成，如Spark SQL、Spark Streaming和MLlib等。Pyspark还支持多种编程语言，如Python、Java和Scala，使得开发人员可以根据自己的喜好和需求进行编程。

在云计算领域，腾讯云提供了一系列与Spark相关的产品和服务，如云服务器CVM、弹性MapReduce EMR、云数据库CDB等。你可以通过腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用指南。

Pyspark:拆分Spark Dataframe字符串列并循环字符串列表，将匹配的字符串分成多列

、、

我遇到的数据是这样的： req_id dsp_price_style 0 "1000:10,1001:100,1002:5,1003:7" 1 "1002:5,1000:100,1001:15,1003:6" 字段'dsp_price_style‘的值格式是dsp_id_0:price_0，dsp_id_1:price_1，.，dsp_id_n:price_n，而它们没有在dsp_id之间排序，我只需要dsp_id是'1000’和dsp_id是'1001‘<e

浏览 27提问于2020-01-10得票数 0

回答已采纳

1回答

筛选文本列中的停止词- spark

、、、

我正在使用spark，并且有一个包含用户ID和产品评论的数据框架。我需要过滤来自评论的停止词，我有一个文本文件和停止词来过滤。from pyspark.sql.functions import col stopWords = spark.read.text('/FileStore/tables/english.txt

浏览 6提问于2022-04-16得票数 1

回答已采纳

4回答

将Spark Dataframe字符串列拆分成多列

、、

我见过许多人建议Dataframe.explode是一种有用的方法，但它比原始数据帧产生更多的行，这根本不是我想要的。我只是想做一个相当于非常简单的Dataframe：它看起来像这样： 18 | 856-yygrm | 856 | yygrm 201 |

浏览 2提问于2016-08-31得票数 92

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrame 当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('Top

浏览 0提问于2016-06-22得票数 0

1回答

在PySpark中连接列表

在我的Spark Dataframe中，有一列是字符串"1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0"我希望从这一列的每一行中收集字

浏览 3提问于2018-07-23得票数 0

2回答

匹配Pandas列中字符串元素的未知数目

、

我有一个字符串列表，需要对数据框架中的某一列进行搜索：我试图在dataframe中检索与列表中每个字符串中的单词按任何顺序匹配的行。我很高兴地发现，我可以在str.contains中使用一个‘AC.26’操作符(检索所有5行)： df[df['

浏览 5提问于2016-04-15得票数 2

回答已采纳

1回答

如何使用pyspark来确定一列的字符串句子中是否包含一个或多个单词

、、

我有一个数据集，如下所示我正在尝试使用pyspark标记或过滤列表中包含单词的行所以本质上它应该返回第一行和第三行。它应该返回第二行，因为树的末尾是s。我只想要全字匹配。我的想法是字符串拆分字符串列，循环遍历引用列表，有没有更好的方法？

浏览 2提问于2020-10-28得票数 1

2回答

在Scala中将RDD列拆分为几个列

、、

我有一个如下形式的RDD：这是RDD的第一个元素：我想将该列表分成几列，因为它是用逗号分隔的，因此预期输出将是：有什么帮助吗？解决方案：我最终解决了这个问题:我所做的是用mkstring("，")将数组组合成一个完整的</e

浏览 0提问于2016-10-03得票数 1

1回答

如何将我的single_space函数应用于大量的数据格式列？

、、、、

我正在使用一个函数来将pyspark中的所有空白空间转换为单一的空白空间。我能够单独应用这个函数来使用.withcolumn分隔列。现在，我有大约120个混合类型的列，我只想将这个函数应用于字符串列。为此，我创建了一个仅包含字符串类型列名的列表。如何喂食(应用，地图?)这个数组到我的函数使用using列？banana", "cherry&quo

浏览 1提问于2020-01-27得票数 0

回答已采纳

1回答

在scala中根据字符串长度拆分字符串

、、、

我有一个包含两列的表，一列是id，另一列是value。我的值列包含1488个字符。我必须将这一列分成多行，每行12个字符。示例：ID Value预期输出：1 123456789987在Spark

浏览 23提问于2019-11-11得票数 0

回答已采纳

3回答

移除化工厂中列中的逗号。

、、、

我的DataFrame中有两个列，第一列和第二列。两列都包含空单元格。|--------------------|------| ----------------------------- 我将这两列连接为一个新列为此，我将每行中的字符串列表拆分为基于逗号的单词列

浏览 5提问于2017-10-23得票数 0

回答已采纳

1回答

将字符串的部分转换为数据文件的不同列。

、、

我有一个包含两列的json文件。第二列是字符串。该字符串的结构如下："aa#bbc#cd" 因此，字符串由多个子字符串组成，由#分隔。每一行的子字符串数是相同的。我想将字符串拆分成一个dataframe.I的列，我可以使用一些子字符串函

浏览 1提问于2019-11-24得票数 1

回答已采纳

1回答

StringType :由于数据类型为字符串而不是Pyspark，无法将RDD转换为DataFrame

、、

我在Pyspark中做了一些复杂的操作，其中最后一个操作是一个flatMap，它产生一个pyspark.rdd.PipelinedRDD类型的对象，其内容只是一个字符串列表： print(output_data.take(8)) > ['a', 'abc', 'a', 'aefgtr', 'bcde', 'bc', 'bhdsjfk', 'b'

浏览 34提问于2020-10-21得票数 0

回答已采纳

2回答

将函数应用于Spark* DataFrame中的所有单元格*

、、、、

我正在尝试将一些Pandas代码转换为Spark以进行缩放。myfunc是一个复杂应用程序接口的包装器，它接受一个字符串并返回一个新的字符串(这意味着我不能使用矢量化函数)。ds[attribute] = valuemyfunc获取一个DataSeries，将其拆分成多个单元格这将有效地修改DataFrame

浏览 2提问于2019-02-02得票数 1

回答已采纳

1回答

将列表传递给QR生成器

、、、

我是用flutter编程的新手，我正在尝试创建一个披萨应用程序。首先，你制作披萨，选择配料，然后你会得到一个订单列表。列表和qr生成器也可以工作，但它们来自不同的教程，我在连接它们时遇到了问题。我似乎无法将订单列表传递给生成器。

浏览 21提问于2019-03-12得票数 2

2回答

PySpark -检查字符串列是否包含字符串列表中的单词并提取它们

、、

我想检查列表中的项目是否在列中的字符串中，并知道其中的哪些。假设我有一个PySpark Dataframe，它包含有25M行的id和description，如下所示：我有一个这样的字符串列表： technos = ["SQL", "NodeJS", "R我想检查一下，在我的数据中的每一个描

浏览 9提问于2022-10-14得票数 1

1回答

将数据框中具有外部列表的循环列表中的字符串匹配到同一数据帧中的新列后追加单词

、、、

我想循环遍历一个pandas数据框，其中每一行都有一个字符串列表。但对于每一行，我希望将其与另一组具有预定义字符串的列表进行交叉引用。如果外部列表中的预定义字符串与行中的字符串匹配，我希望将匹配的字符串附加到一个新列，该列具有与循环经过的行相同的</

浏览 0提问于2019-08-02得票数 0

1回答

Scala:在where子句中，如何获得列字符串值和拆分，并与另一个数组相交？

、、

我有一个dataframe，其中一个列是；分隔的字符串，例如"str1;str2;str3;str4"，我还有另一个静态列表"strx;stry;strz"，目标是拆分列字符串值，并检查拆分数组是否与静态列表有任何交集，并保留该行。(staticList).nonEmpty) or u

浏览 1提问于2021-06-14得票数 1

回答已采纳

2回答

Scala火花-将JSON列拆分为多列

、、、

Scala，使用Spark2.3.0。我正在使用一个创建JSON字符串列的udf创建一个DataFrame：它的产出如下：|

浏览 4提问于2020-01-06得票数 0

回答已采纳

1回答

熊猫的SettingWithCopyWarning不可避免吗？

、、

数据帧df的给定列a包含带有换行符的字符串.我将它们拆分成一个字符串列表然而，我收到了警告请参阅文档中的注意事项： selfname = value 但是，我认为不可能像

浏览 0提问于2018-03-19得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark:拆分Spark Dataframe字符串列并循环字符串列表，将匹配的字符串分成多列

相关·内容

Pyspark:拆分Spark Dataframe字符串列并循环字符串列表，将匹配的字符串分成多列

筛选文本列中的停止词- spark

将Spark Dataframe字符串列拆分成多列

使用map函数将Spark Dataframe转换为RDD

在PySpark中连接列表

匹配Pandas列中字符串元素的未知数目

如何使用pyspark来确定一列的字符串句子中是否包含一个或多个单词

在Scala中将RDD列拆分为几个列

如何将我的single_space函数应用于大量的数据格式列？

在scala中根据字符串长度拆分字符串

移除化工厂中列中的逗号。

将字符串的部分转换为数据文件的不同列。

StringType :由于数据类型为字符串而不是Pyspark，无法将RDD转换为DataFrame

将函数应用于Spark* DataFrame中的所有单元格*

将列表传递给QR生成器

PySpark -检查字符串列是否包含字符串列表中的单词并提取它们

将数据框中具有外部列表的循环列表中的字符串匹配到同一数据帧中的新列后追加单词

Scala:在where子句中，如何获得列字符串值和拆分，并与另一个数组相交？

Scala火花-将JSON列拆分为多列

熊猫的SettingWithCopyWarning不可避免吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐