Pyspark -按组添加行

Pyspark是一种基于Python的Spark编程接口，它提供了在大数据处理和分析中使用Spark的能力。Pyspark允许开发人员使用Python编写分布式数据处理应用程序，并利用Spark的强大功能进行数据处理、机器学习和图形计算等任务。

按组添加行是指在数据处理过程中，根据特定的分组条件，将新的行添加到数据集中。这种操作通常用于对数据进行聚合、分组统计或者生成新的数据集。

Pyspark提供了多种方法来实现按组添加行的操作，其中最常用的是使用groupBy()和agg()函数结合使用。首先，使用groupBy()函数按照指定的列进行分组，然后使用agg()函数对每个分组进行聚合操作，并将结果添加到原始数据集中。

以下是一个示例代码，演示了如何使用Pyspark按组添加行：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 创建SparkSession对象
spark = SparkSession.builder.appName("GroupByAddRow").getOrCreate()

# 创建示例数据集
data = [("A", 1), ("A", 2), ("B", 3), ("B", 4)]
df = spark.createDataFrame(data, ["group", "value"])

# 按组添加行
new_rows = df.groupBy("group").agg(col("group"), col("value").sum().alias("sum_value"))

# 将新行添加到原始数据集中
result = df.union(new_rows)

# 打印结果
result.show()

在上述示例中，我们首先创建了一个包含"group"和"value"两列的DataFrame。然后，使用groupBy()函数按照"group"列进行分组，并使用agg()函数计算每个分组的"value"列的总和，并将结果添加到原始数据集中。最后，使用union()函数将新的行添加到原始数据集中，并打印结果。

Pyspark的优势在于其与Spark的无缝集成，可以利用Spark的分布式计算能力进行大规模数据处理和分析。此外，Pyspark还提供了丰富的数据处理和机器学习库，使得开发人员可以方便地进行复杂的数据处理和分析任务。

对于Pyspark的应用场景，它适用于需要处理大规模数据集的场景，例如数据清洗、数据聚合、数据分析和机器学习等。由于Pyspark可以利用Spark的分布式计算能力，因此可以处理大量的数据，并且具有良好的扩展性和性能。

腾讯云提供了一系列与Pyspark相关的产品和服务，例如Tencent Spark，它是腾讯云提供的基于Spark的大数据处理和分析服务。您可以通过以下链接了解更多关于Tencent Spark的信息：Tencent Spark产品介绍

总结起来，Pyspark是一种基于Python的Spark编程接口，用于大数据处理和分析。按组添加行是一种在数据处理中根据分组条件添加新行的操作。Pyspark提供了丰富的功能和库，适用于大规模数据处理和分析的场景。腾讯云提供了与Pyspark相关的产品和服务，例如Tencent Spark。

页面内容是否对你有帮助？

有帮助

没帮助

PySpark:基于另一列顺序的数据柱上的collect_set

、、、

我有一个星火数据库，它看起来有点像这样： id country date action 1 A 2019-01-01 suppress 1 A 2019-01-02 suppress 2 A 2019-01-03 bid-up 2 A 2019-01-04 bid-down 3 C 2019-01-01 no-action 3 C 2019-01-02 bid-up 4 D 2019-01-01 suppress 我希望通过将“action”列的唯一值按id、cou

浏览 1提问于2019-10-21得票数 0

2回答

行的SSRS汇总字段

、、

我正在编写一个报告，其中包含员工时间信息以及该时间的日期。目前，我有按员工和日期分组的表，因此我只获得该员工和日期的时间，但每个日期都有一行： ? 我尝试做的是删除日期列，并将每个日期的时间汇总到其特定的日期列中(例如，7/16/2020数据将仅汇总到7/16/2020列标题中)，并且每个员工只有一行。所需输出： ? 我如何才能做到这一点呢？

浏览 27提问于2020-09-09得票数 0

回答已采纳

2回答

TCP通讯服务端端口开放问题？

还是学生，以前没接触过网络编程，现在有个问题。我使用Qt写了一个Server端的程序，准备开放端口给它用。我在防火墙增添了入站规则，开放了一些端口。又在安全组那里增添了规则。但是无法访问我开放的端口。后来把防火墙关掉了，依旧不行。只得把服务器添进了3389端口那个安全组，可以了，于是我把3389安全组克隆增加了一些端口，不行。不知道是我写的程序有问题还是怎样，虽然客户端显示连接成功，但服务端好像无法接收到请求。于是前来请教，谢谢大家！

浏览 573提问于2016-05-29

1回答

在pyspark中保持至少有一个元素满足条件的组

、、

我一直在尝试用pyspark重现一些在Pandas中很容易做到的东西，但我现在已经挣扎了一段时间。假设我有以下数据帧： df = pd.DataFrame({'a':[1,2,2,1,1,2], 'b':[12,5,1,19,2,7]}) print(df) a b 0 1 12 1 2 5 2 2 1 3 1 19 4 1 2 5 2 7 和列表 l = [5,1] 我尝试做的是按a进行分组，如果b中的任何元素都在列表中，则为该组中的所有值返回True。然后，我们可以使用结果来索引数据帧。与此相对应的Pandas是：

浏览 8提问于2020-11-04得票数 2

回答已采纳

1回答

如何将包含所有依赖项的python包安装到Docker映像中？

、、、、

我在jupyter/pyspark-notebook.的Ubuntu15.10中使用Docker容器我需要安装folium和它的所有依赖项，并在容器中运行Pyspark脚本。我成功地安装了Docker，取出映像并使用命令运行它 docker run -d -p 8888:8888 -p 4040:4040 -v /home/$MYUSER/$MYPROJECT:/home/jovyan/work jupyter/pyspark-notebook 然后，我在没有任何问题的情况下执行代码示例。 import pyspark sc = pyspark.SparkContext('local[

浏览 5提问于2016-05-10得票数 19

回答已采纳

1回答

Microsoft Reporting Services未显示多个节

、、

浏览 4提问于2012-03-01得票数 1

回答已采纳

2回答

###RuntimeError:在发送端口号之前退出的Java网关进程

、、、

我试图用python来分析这些数据： from pyspark.sql import SparkSession from pyspark.sql.types import * from pyspark.sql.functions import* spark = SparkSession.builder.getOrCreate() ds1 = spark.read.csv("C:\\Users\\User\\Desktop\\Trip_data\\202101-divvy-tripdata.csv", header=True) ds2 = spark.read.csv(

浏览 18提问于2022-04-17得票数 2

2回答

GroupBy在PySpark中的优化

、、、、

我有一个数据集，在该数据集中，我将按多个变量分组，使用PySpark计算每个用户ID的最大值和平均值的中位数，如下所示： import pyspark.sql.functions as F df = spark.read.parquet("s3a://xxx").select("id", "timestamp", "category", "value") df1 = df.groupBy("id", "timestamp", "category").agg(F.max

浏览 21提问于2022-01-10得票数 0

回答已采纳

1回答

我如何分配一行与？

、、、

请您将下面这个表达式从Pandas转换为Pyspark，我试着在Pyspark中看到等效的loc吗？ import pandas as pd df3 = pd.DataFrame(columns=["Devices","months"]) new_entry = {'Devices': 'device1', 'months': 'month1'} df3.loc[len(df3)] = new_entry

浏览 1提问于2021-02-04得票数 0

回答已采纳

1回答

“任意值”的PySpark聚合函数

、、、、

我有一个PySpark Dataframe和一个A字段，很少有依赖于A (A->B)和C字段的B字段，例如，我希望每个A都聚合这些字段： A | B | C ---------- A | 1 | 6 A | 1 | 7 B | 2 | 8 B | 2 | 4 我希望按A分组，呈现任何B并在C上运行聚合(例如SUM)。预期结果将是： A | B | C ---------- A | 1 | 13 B | 2 | 12 就SQL而言，我会这样做： SELECT A, COALESCE(B) as B, SUM(C) as C FROM T GROUP BY A PySpark是如何做到这一

浏览 0提问于2018-02-25得票数 6

回答已采纳

1回答

日期时间聚集索引不断变得支离破碎

、、、、

我有一个名为CDR的大表(400万条记录)，它用于存储VoIP系统中思科路由器中的CDR (Call Detail Record)s，该表在不断增长，并且永远不会有按顺序插入的记录。我们也不更新或删除行。因为我们的大多数查询都是基于调用启动的时间，所以我在这个列上创建了我的主聚集索引(DATETIME数据类型)。然而，经过一段短暂的时间，指数变得支离破碎，仅仅一周后，它就有超过70 %的碎片，所以我们需要重建它。我不明白为什么这种情况会持续发生，因为我们按顺序插入，并且不更新或删除行。任何关于减少或消除碎片的建议都将不胜感激。我正在使用带有Windows 2012的旧Xenon服务器上的

浏览 0提问于2015-11-20得票数 3

回答已采纳

1回答

将numpy中的不同数组添加到数据帧的每一行

、、、

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name | | ------ | ------ | | 1 | Bob | | 2 | Alice | | 3 | Mike | numpy矩阵是这样的 [[2, 3, 5] [5, 2, 6] [1, 4, 7]] 产生的预期数据帧应该如下所示 | Id | Name | custo

浏览 16提问于2019-10-05得票数 0

1回答

将一个新组添加到现有组的SSRS表中？

、、

我有一份现有的报告，有三个层次的分组。我被要求在当前级别之外添加第四个级别(在报告的左边)。当我构建报告时，我似乎无法让新的组看起来像SSRS为我构建的原始组那样或表现得像原来的组。原来的报告如下：我在AppOwner上分组，一个计算的AppName和RepositoryName。详细信息行在此下面。您可以看到显示每个组的分组大纲，其中包含组“头”和下面的子行。下面是Row分组窗格：我试图在AppOwner组之外添加一个新的公司组。它需要包含它下面的所有行，并且它需要驻留在自己的行中，这样我就可以在列中放置一些表达式。当我从报表数据拖放公司到分组窗格时，它会添加一个带有合

浏览 1提问于2016-02-17得票数 3

回答已采纳

10回答

基于另一个变量保持顺序的collect_list

、、

我试图使用现有列集上的groupby聚合来在Pyspark中创建一个新的列表列。下面提供了一个示例输入数据框架： ------------------------ id | date | value ------------------------ 1 |2014-01-03 | 10 1 |2014-01-04 | 5 1 |2014-01-05 | 15 1 |2014-01-06 | 20 2 |2014-02-10 | 100 2 |2014-03-11 | 500 2 |2014-04-15 | 1500 预期产出如下：

浏览 8提问于2017-10-05得票数 82

回答已采纳

1回答

将每个二元语法从列表格式移动到Pandas或Pyspark数据帧中的新行

、、、、

我有pandas和pyspark数据帧，每天每行都有二元组的列表。我想打破列表，并将每个二元组合移动到一行，计数按降序排列。如下所示是我拥有的数据帧。我已经按event_dt进行了排序。在“merged”列中，显示了二元语法的列表。例如，“漂亮的相遇”和“相遇后付费”是两个二元语法。双连词的列表每天都在继续... ? 现在，我想要将每个biagram移动到同一日期的新行。例如，“nice meet”将在一行中，而“meet postpaid”将在另一行中，而event_dt列则显示相同的日期。我还希望双字母组的计数在降序，也希望得到前10或前20个计数双字母组为每个日期。这里我希望

浏览 40提问于2020-10-23得票数 0

回答已采纳

2回答

使用"Overwirte“模式将PySpark保存到红移表会导致删除表？

、

使用AWS中的PySpark将数据从S3文件加载到Redshift表，在代码使用模式(“Overwirte”)中，有错误声明“由于其他对象依赖于表而不能删除表”，结果是在该表的顶部创建了视图，接缝“改写”模式实际上是删除并重新创建红移表，然后加载数据，是否有任何选项只能“截断”表而不删除它？

浏览 1提问于2018-05-21得票数 0

回答已采纳

1回答

在XAML中，是否有将按键和密钥发布绑定到特定命令的方法？

、、

在我的应用程序中，我有使用KeyBinding类绑定到命令的键。当按下并释放键时，将执行该命令。我有一个特殊情况，我想将单独的命令绑定到按下的操作和释放的操作。例如，当按下空格键时，我希望我的应用程序运行命令进入特殊模式。然后，当空间键被释放时，我想运行另一个命令来退出这个特殊模式。目前，我通过手动处理KeyUp和KeyDown事件来做到这一点。是否存在完全在XAML中执行按下和释放命令的问题？

浏览 0提问于2010-03-24得票数 0

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的数据帧的模式是多层的(即每一行都包含结构数组的结构等)，所以我认为将所有存储桶合并到一个数据帧中的唯一

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

将SSRS相邻组导出到不同的excel选项卡

、

我有一个ssrs Tablix，我有两个相邻的组，例如第1组:经理和第2组:经理详细信息。它们都是独立的相邻群体。客户端希望将它们导出到一个带有两个选项卡管理器的excel中。第一页应从第一组获得所有数据，第二页应从第二组获取所有数据。有人能给我建议吗。

浏览 8提问于2022-03-30得票数 0

2回答

根据Spark 1.6数据帧上的其他字段计算每个组的不同元素

、、

我尝试在Spark数据帧中按日期分组，并为每个组计算一列的唯一值： test.json {"name":"Yin", "address":1111111, "date":20151122045510} {"name":"Yin", "address":1111111, "date":20151122045501} {"name":"Yln", "address":1111111, "date":20151

浏览 1提问于2016-03-17得票数 28

回答已采纳

2回答

从Spark GroupedData对象中选择随机项目

、、、

我刚开始在Python中使用Spark，并且一直无法解决这个问题:在pyspark.sql.dataframe.DataFrame上运行groupBy之后 df = sqlsc.read.json("data.json") df.groupBy('teamId') 如何从每个结果组(按teamId分组)中选择N随机样本而不进行替换？我基本上是尝试从每个团队中随机选择N用户，也许一开始使用groupBy是错误的？

浏览 0提问于2015-11-17得票数 21

回答已采纳

1回答

显示组和agg之后的所有火花放电列

我希望按一列分组，然后找到另一列的最大值。最后，显示基于此条件的所有列。然而，当我使用我的代码时，它只显示2列，而不是所有列。 # Normal way of creating dataframe in pyspark sdataframe_temp = spark.createDataFrame([ (2,2,'0-2'), (2,23,'22-24')], ['a', 'b', 'c'] ) sdataframe_temp2 = spark.createDataFrame([

浏览 0提问于2020-01-19得票数 0

回答已采纳

2回答

关于火花放电窗口函数中的不孕函数

、、、

我正在运行以下代码段， import pyspark from pyspark.sql import SparkSession from pyspark.sql.window import Window from pyspark.sql.functions import ntile spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate() simpleData = (("James", "Sales", 3000), \ ("Michael

浏览 4提问于2021-04-02得票数 1

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

2回答

通过Pytest从一个test.py文件运行多个测试文件

、

我在测试文件夹中有多个测试文件。这个结构类似于这样的东西： /test ----test_abc.py ----test_bcd.py ----test_cde.py ----conftest.py conftest.py包含运行单元测试所必需的所有星火上下文初始化。我的问题是，我希望有一个test.py文件，它在内部触发所有的test_abc.py、test_bcd.py和test_cde.py。当我们处理python的utit_test模块时，它变得非常容易，但我不知道如何通过pytest模块来获得它。如果需要对这个问题作进一步的澄清，请告诉我。 conftest.py看起来如下所示： i

浏览 2提问于2018-12-10得票数 4

2回答

星星之火上熊猫API组

、、、、

我下面有一只熊猫， data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings', 'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'], 'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1

浏览 5提问于2022-11-11得票数 0

回答已采纳

1回答

分页符后重复的列表的ssrs标头

、

我有一个报表服务和子报表的布局。我的子报表是带有标题的列表。我需要得到每个分页的子报表的标题。我试着使用表格来完成这个任务，但是我没有在pagebraks上显示标题，尽管我在每个页面上使用了repeat或者类似的东西(我真的对很多愚蠢的任务和不能工作的属性感到沮丧)。也许有人可以在不使用表格的情况下为这项任务提供解决方案？我已经找到了使用子报告的头来解决这个问题的方法，但这也不起作用。我尝试设置“每页重复标题行”，“每行重复标题列”，并尝试在高级模式下设置标题的"RepeatOnNewPage“属性，但一切都是徒劳的。所有这些我都尝试使用，甚至在没有列表的简单表格中也是如此。报表将

浏览 0提问于2015-11-30得票数 0

1回答

Reporting 2008将重复行导出到Excel

我有一个表格报告，分组和切换如下： RowGroups RowGroup1隐藏:假，InitialToggleState:真 RowGroup2隐藏:假，ToggleItem: RowGroup1 RowGroup3隐藏:假，ToggleItem: RowGroup1 RowGroup4隐藏:真，ToggleItem: RowGroup3 ColumnGroups 年报告的细节是“成本”之和。所有的详细信息和组都在报告中的一行。当我查看报告时，除RowGroup4之外的所有内容都是可见的，我可以切换该组以展开详细信息。此问题发生在我导出到Excel时。我被复制了一排。我在上读过关于这个问题

浏览 4提问于2013-02-18得票数 0

回答已采纳

1回答

如何对PySpark DataFrame的每一列中的数据进行混洗？

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。 # read the csv file in a spark dataframe df = (spark.read .option("inferSchema", "true") .option("header", "true") .csv(file_path)) 我想对每一列中的数据进行混洗，即分别为‘'In

浏览 16提问于2020-05-11得票数 0

1回答

仅重复一些组标题行RS 2008

、

我正在努力让一些组标题行在后续页面上重复。我使用高级属性来设置FixedData、KeepTogether、KeepWithGroup和RepeatOnNewPage。任何组合似乎都不起作用。我需要重复前三行，因为这里只有文本。接下来的8行包含我不想重复的组总计。我看到了这篇文章：但这对我没什么帮助。我仍然得到TablixMember必须为KeepWithGroup属性设置与动态TablixMember之后或之前的值相同的值。提前谢谢你。

浏览 0提问于2013-03-23得票数 0

1回答

如何在Pyspark Dataframe中的特定索引中添加行或替换？

、、、

我想将此列表L1作为行添加到第一个索引中，如何在Pyspark Dataframe中的特定索引中追加一行？ L1=['na',5.6,2.4] data=[('fr',8.8,6.6), ('nr',4.4,2.5), ('cc',2.3,3.9)] data_schema=[StructField('loc',StringType(),True),StructField('col',FloatType(),True),StructField('io',F

浏览 30提问于2021-01-24得票数 0

回答已采纳

1回答

SSRS列集的求和

、、

我有一个查询，它从数据库中收集项目并生成许多行： SELECT ITEMID, SUM(dbo.CUSTINVOICETRANS.QTY) AS 'Quanity', SUM(LINEAMOUNTMST) AS 'Sales', COUNT(DISTINCT dbo.CUSTINVOICEJOUR.SALESID) AS 'Total Orders' INTO #tempItemRevenue FROM dbo.CUSTINVOICEJOUR INNER JOIN dbo.CUS

浏览 3提问于2015-02-09得票数 1

回答已采纳

1回答

在pyspark中计算列之间的方差

、、

如何计算pyspark中多个列的方差？例如，如果pyspark.sql.dataframe表是： ID A B C 1 12 15 7 2 6 15 2 3 56 25 25 4 36 12 5 所需的输出为 ID A B C Variance 1 12 15 7 10.9 2 6 15 2 29.6 3 56 25 25 213.6 4 36 12 5 176.2 pyspark中有一个方差函数，但它只能按列工作。

浏览 1提问于2017-04-28得票数 1

2回答

PySpark:根据不同列中某个值的最后一次出现情况填充列

、、

使用PySpark，我正在寻找一种根据列Status中的值填充列Code的方法。df按ID列排序。唯一有意义的Code值是A (Good), B (Bad), C (Neutral)。当这些值中的一个出现时，我希望每一行都有相同的Status值，直到出现任何其他重要的Code值。这是所需的带有新添加的Status列的df输出： +----+------+---------+ | ID | Code | Status | +----+------+---------+ | 1 | A | Good | | 2 | 1x4 | Good | | 3 | B

浏览 25提问于2019-05-13得票数 1

回答已采纳

1回答

PySpark中是否有相当于Pandas聚合函数的任何函数？

、、、

我想把下面的熊猫代码翻译成PySpark代码 pd_df.groupby(['colA']).agg(newCol1 = ('colB', 'count'), newCol2 = ('colC', 'mean')) newCol3 = ('colD', 'any')).reset_index() 等效的PySpark代码将是 import pyspark.sql.funct

浏览 5提问于2019-11-25得票数 0

回答已采纳

3回答

PySpark DataFrame上分组数据的熊猫式转换

、、、、

如果我们有一个由一列类别和一列值组成的Pandas数据框架，我们可以通过执行以下操作来删除每个类别中的平均值： df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda g: g - numpy.mean(g)) 据我所知，不直接提供这个按组/转换操作(我在Spark1.5.0上使用PySpark )。那么，实现这种计算的最佳方法是什么呢？我尝试使用了一个group/join，具体如下： df2 = df.groupBy("Category"

浏览 8提问于2015-12-25得票数 19

回答已采纳

1回答

PySpark用分组均值填充缺失/错误值

、、

我有一个星火数据，有一个丢失和一个错误的价值。 from pyspark.sql import Row from pyspark.sql.types import StringType, DoubleType, StructType, StructField # fruit sales data data = [Row(id='01', fruit='Apple', qty=5.0), Row(id='02', fruit='Apple', qty=1.0), Row(id='03'

浏览 1提问于2019-01-19得票数 1

回答已采纳

1回答

1:错误：';‘需要，但找到了'import’

我在Zeppelin中运行这段代码，得到以下错误信息 from pyspark import SparkContext from pyspark.sql import HiveContext sc = SparkContext(appName="PythonSQL") hive_context = HiveContext(sc) bank = hive_context.table("default.invites_orc") bank.show() bank.registerTempTable("bank_temp") hive_contex

浏览 0提问于2016-11-29得票数 2

1回答

如何在rdlc中的一列中显示所有父组和子组

、、

Actullay我想要创建一个报告，它以给定的形式显示数据：财政年度: 1990 大地震-1 项目-1 项目-2 大错-2 项目-1 大错-2 项目-3 1-财政年度是父级，然后类别名是它的子类，然后ItemTitle是类别名子级。我已经创建了相同的内容，但这并不是必需的，因为子列预先显示在父column.Thanks的右列中。请告诉我哪一种控制是这个表或Metrix的最佳选择

浏览 2提问于2014-01-17得票数 1

回答已采纳

1回答

如何找到用于在Amazon aws中创建SparkContext的主节点url的端口号？

、、

我在Amazon AWS上运行了Spark 1.6。我试图运行这段代码，其中我通过传入主节点url来创建SparkContext，但是我得到了连接被拒绝的错误。我当前的代码是： import fnmatch import os import sys from os import system from sys import argv from pyspark import SparkContext from pyspark.sql import SQLContext def test(master_url): sc = SparkContext(master=master_url,

浏览 2提问于2016-03-29得票数 0

2回答

属性错误:使用lambda拆分spark sql python

、、、、

在Spark sql中，我使用Python，并尝试处理以下SQL的输出RDD。这是一个推文列表。我需要拆分单词并提取@，但是当使用map并尝试按空格拆分时，我得到了下面提到的异常消息 words.tw = sqlContext.sql("SELECT text FROM tweet where text like '%@%'") tweetrdd = tw.rdd.map(lambda line: line.split(" ")) tweetrdd.collect() ERROR executor.Executor: Exception i

浏览 1提问于2016-11-17得票数 2

1回答

火花放电中的分组值

、

我需要在以下方面的帮助。假设我有一个如下所示的数据框架。我希望根据“秩”列的顺序生成dom列和属性列的附录。 from pyspark.sql.functions import first l =[( 1 ,'A', 10, 'size' ), ( 2 , 'B', 20, 'height' ), ( 3 , 'C', 30, 'weigth' )] df = spark.createDataFrame(l, ['rank','dom

浏览 0提问于2018-12-05得票数 1

回答已采纳

5回答

如何计算火花放电中groupBy后的唯一ID

、、

我每年都会使用下面的代码来提高学生的年龄。目的是了解每年的学生总数。 from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year')) 我发现这么多ID被重复的问题，所以结果是错误的和巨大的。我想按年增加学生人数，按年计算学生总数，避免重复使用ID。

浏览 2提问于2017-09-26得票数 62

回答已采纳

1回答

在没有sql函数的PySpark中对数据进行排序

、、、

我在打印这个查询时遇到了一些问题，这个查询的月份按适当的顺序排序。是否有按降序格式化月份列的pyspark函数命令？(不使用sql命令) from pyspark import SparkContext from pyspark.sql import SQLContext from operator import add sc = SparkContext.getOrCreate() sqlContext = SQLContext(sc) rows = sc.textFile("data.csv") data = rows.map(lambda line: line.sp

浏览 1提问于2020-06-15得票数 0

回答已采纳

2回答

ImportError:无法导入名称sqlContext

、、、、

我正在使用pyspark读取一些csv数据来激发Dataframe。我试着按以下方式导入吡咯烷酮模块： from pyspark.sql import sqlContext 为什么我会得到以下错误？怎么修呢？ ImportError:无法导入名称sqlContext 我正在使用Python2.7和Spark2.0.1

浏览 1提问于2016-12-13得票数 3

回答已采纳

2回答

在SQL Server中查找最大层次结构in

、、、、

浏览 0提问于2016-04-30得票数 1

1回答

使用spark streaming时，找不到kafka的群组信息

、、

我有以下简单的spark streaming进程，它使用组id为feature1的卡夫卡主题test中的消息并打印结果。但是，当我运行bin/kafka-consumer-groups.sh --bootstrap-server zookeeper-1:9092 --list列出所有组时，没有feature1或任何包含feature1的内容。有什么问题吗？我的spark版本是2.1.2，kafka版本是2.12-2.0.0，zookeeper版本是3.4.13。我在这里发现了一些相关的问题，但我不知道我的问题是否与这个问题有关。 # coding=utf8 import sys impor

浏览 9提问于2018-08-20得票数 0

1回答

如何计算或管理火花放电中的流数据

、、、、

我想从流数据中计算数据，然后发送到网页。例如，：我将在流数据中计算TotalSales列的和。，但它在summary = dataStream.select('TotalSales').groupby().sum().toPandas()上出错，这是我的代码。 import os from pyspark.sql import SparkSession from pyspark.sql.types import StructType from pyspark.sql.functions import * spark = SparkSession.builder.appName

浏览 0提问于2020-06-02得票数 0

回答已采纳

1回答

D3线图-不适当缩放的线(ClipPath，缩放)

、、、、

我使用D3版本4按日期解析数据和图表。我已经缩放了所有的东西，很好地与缩放工作，但我似乎无法阻止线溢出外的轴线。我希望它停留在图表中，当用户放大时，只需切断部分。使用剪辑路径，线/点在轴的边界被切断，但当用户放大它们时，它们溢出而过，但仍然缺少被切断的原始部分(即只有一个点的一半，只是更大和溢出)。整个项目都可以在这里查看：以下是一些重要的/相关的部分： // scale, set ranges var x = d3.scaleLinear() .range([0, width-100]) .domain(d3.extent(data, function(d) { re

浏览 1提问于2018-06-22得票数 2

回答已采纳

1回答

如何从菜单布局中删除圆角，并在项目之间添加线条？

、、、

我只是试着在堆栈上找到关于菜单项布局的溢出，我使用onCreateOptionsMenu扩展了一个菜单，但菜单在单击后显示时有圆形边框。如何删除圆角，使其成为一个正方形或矩形，没有边界？如果可能的话，在项目之间放置直线(除数)。这是我的xml文件 <menu xmlns:android="http://schemas.android.com/apk/res/android" xmlns:app="http://schemas.android.com/apk/res-auto" xmlns:tools="http://schemas.a

浏览 17提问于2019-04-29得票数 0