计算文本中的特定字符- pyspark

、、、

我有一个包含文本列的pyspark数据框。此列中可以包含文本(字符串)信息。我所要做的就是在这一列的每一行中计算A，B，C，D等。||DCDBBEDBBE | +-------------------------+ 现在我想计算每一列中的B、C、D等的数量，并创建各自的<

浏览 6提问于2021-04-05得票数 0

回答已采纳

2回答

使用PySpark计数最频繁的单词

、、、、

我想编写一个PySpark代码片段，它首先从云存储桶中以文本文件的形式读取一些数据。文本文件包含用换行符分隔的文本段落，单词也使用空格字符分隔。from pyspark import SparkConf, SparkContext from google.cloud imp

浏览 4提问于2022-11-03得票数 0

2回答

如何只获取日期时间字符串中的小时时间戳？

、、、

我有一个有日期/时间列的pyspark中的df。日期时间设置为字符串。我试图从每个日期时间字符串中提取特定的时间，然后计算包括多少个‘0-小时’，‘1-小时’，‘2-小时’等等。每个字符串被设置为：‘：MM:SS’ex：'2016-04-26 19:49:16‘。我应该把日子和时间分开，还是有更快的方法？

浏览 4提问于2022-07-13得票数 0

回答已采纳

1回答

使用pyspark* dataframe从列名中删除特殊字符*

、、

我正在尝试使用pyspark读取csv文件，大多数列名都有特殊字符。我想要使用pyspark dataframe.Is删除所有列名中的特殊字符，有什么特定的函数可以同时删除所有列名的特殊字符吗？我很感激你的回应。

浏览 1提问于2020-08-05得票数 2

回答已采纳

1回答

在Jupyter中使用pyspark时出错

、、、

我按照上给出的说明操作，但每次打开一个新的pyspark笔记本时，我仍然收到以下内核错误。我该如何着手解决这个问题呢？

浏览 0提问于2017-02-05得票数 0

2回答

将数据保存到HDFS的格式是什么？

、、、

在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

无法在PySpark* (版本2.4.4)和PythonVersion3.6.8中的dataframe列上使用导入的包*

、、、、

在我的AWS集群中，我下载了一个Python包：现在，我想在我的名为“'city_no_accents‘city”的pyspark列中使用这个词，该列的值为：’s o paulo‘、'seropédica’等(即带有口音)，并希望创建一个名为“”的新列，它将更正文本中的所有重音，并使其在普通英语文本中

浏览 5提问于2020-10-15得票数 0

1回答

如何使用Pyspark和NLTK计算POS标签？

、、、、

我有一些文本或大文件，我需要使用NLTK和Pyspark来计算POS标签的数量。我找不到一种方法来导入文本文件，所以我试图添加一个短字符串，但失败了。计数行需要包含pyspark。

浏览 15提问于2021-03-13得票数 0

回答已采纳

2回答

pyspark dataframe、groupby和列的方差计算

、、、

我想按pyspark数据帧分组，并计算特定列的方差。对于一般人来说，这很容易，可以这样做AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 然而，对于方差，函数子模块中似乎没有任何聚合函数(我也想知道为什么，因为这是一个相当常见

浏览 7提问于2015-08-12得票数 5

1回答

读取一个文件，文件中有几行

、

我有一个文件，其中有几行这样的内容：I200当我在python中读取这个文件时，文件按原样读取，如下所示：I200但是，当我在pyspark中读到它时，我得到了以下值：我如何才能得到的输出电火花读到它的原值。

浏览 1提问于2017-09-28得票数 0

回答已采纳

1回答

将变量加载到数据帧中

、、、

在PySpark中，我尝试从字符串变量加载数据帧。我的变量是一个多行文本.. string_data = """ david|23|London john|56|Goa """ 我想将这些数据加载到PySpark中的数据帧中。我想使用数据集，但它们在PySpark中不可用。

浏览 7提问于2021-02-02得票数 0

1回答

处理内部的数据，或将其保存到Dataframe或外部文件中

、、、

我正在使用HashingTF和IDF计算TF和国防军，并且使用以下代码：from pyspark.mllib.feature importHashingTFtfidf = idf.transform(tf) 问题是

浏览 0提问于2016-02-23得票数 0

回答已采纳

4回答

替换文本区域中特定位置的字符

、

是否可以替换文本区域或文本框中特定位置的字符？我可以使用indexOf()计算出位置，但是知道了这一点，我怎么才能真正替换那个特定的字符呢？

浏览 3提问于2010-02-22得票数 1

回答已采纳

2回答

使用火花从csv数据中删除特殊字符

、、

我希望使用PySpark从csv数据中删除特定的(例如@，&)特殊字符。我经历了优化火花()。然而，它正在删除所有的特殊字符。我想要删除特定的特殊字符从CSV数据使用火花。我尝试过的几个链接：

浏览 1提问于2018-02-14得票数 4

1回答

使用pyspark从s3读取流数据

、、、、

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一点，但我今天才发现

浏览 1提问于2015-04-11得票数 2

2回答

Pyspark -计算句子中的特定单词

、、、、

我有一个pyspark dataframe，它有一个包含文本内容的列。我正在尝试计算包含感叹号'!‘的句子数量。还有“喜欢”和“想要”这个词。例如:具有包含以下句子的行的列： I don't like to sing!I want to go home! I like fast food.我希望得到的输出应该是这样的(只计算包含" lik

浏览 31提问于2021-10-14得票数 0

回答已采纳

2回答

未知解释器PySpark。toree无法安装PySpark

当我为木星笔记本安装PySpark时，我使用以下cmd：但是，我知道所以我不知道有什么

浏览 0提问于2019-03-15得票数 9

4回答

计算文本输入中特定字符的频率。

我似乎无法让它给我正确的计数。

浏览 2提问于2013-10-01得票数 2

回答已采纳

1回答

Spark编码python中的字符

、、

我有一个波斯文文本/文件，我正在尝试计算其中的单词。from pyspark import SparkConf,SparkContext if(cleanWord): print(cleanWord.dec

浏览 4提问于2021-12-02得票数 0

2回答

如何使用pyspark* python从文本文件中删除重复的数字*

、、

我正在尝试使用python从文本文件中删除重复的数字，但该操作仅适用于行。例如，我的文本文件是：66 9 23 import pyspark from pyspark import SparkContext, SparkConf

浏览 2提问于2022-02-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用PySpark计数最频繁的单词

如何只获取日期时间字符串中的小时时间戳？

使用pyspark* dataframe从列名中删除特殊字符*

在Jupyter中使用pyspark时出错

将数据保存到HDFS的格式是什么？

无法在PySpark* (版本2.4.4)和PythonVersion3.6.8中的dataframe列上使用导入的包*

如何使用Pyspark和NLTK计算POS标签？

pyspark dataframe、groupby和列的方差计算

读取一个文件，文件中有几行

将变量加载到数据帧中

处理内部的数据，或将其保存到Dataframe或外部文件中

替换文本区域中特定位置的字符

使用火花从csv数据中删除特殊字符

使用pyspark从s3读取流数据

Pyspark -计算句子中的特定单词

未知解释器PySpark。toree无法安装PySpark

计算文本输入中特定字符的频率。

Spark编码python中的字符

如何使用pyspark* python从文本文件中删除重复的数字*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐