Spark基于特定列将多行合并为单行，无需groupBy操作

、、、、

我有一个像下面这样有7k列的spark数据框架。通过执行groupBy操作，我可以将其合并为单行，但此聚合的性能非常差，因为我的表中有7k列。import pyspark.sql.functions as F at org.apache.spark.sql.ca

浏览 31提问于2020-07-11得票数 0

1回答

pyspark groupby使用字符串groupby键在输出中生成多行

、

pyspark groupby操作不会为大型数据集生成唯一的组键 .groupBy('key') \例如，上面的查询返回groupBy列(键)的多行。groupby列(‘key’)的数据类型为字符串。我通过执行以下操作将输出存储在CSV中 new_df.write.format("csv&qu

浏览 12提问于2019-11-12得票数 0

回答已采纳

4回答

PySpark数据帧将列熔化为行

、、、、

正如本主题所描述的，我有一个PySpark数据帧，需要将三列合并为行。每一列本质上代表一个类别中的一个事实。最终目标是将数据聚合到每个类别的单个总计中。此数据帧中有数千万行，因此我需要一种在spark集群上执行转换的方法，而无需将任何数据带回驱动程序(在本例中为Jupyter)。90| +-----------+----------------+-----------------+----------------+ 以下是所需的结果数据帧，每个存储多行，其中原始数据帧的

浏览 7提问于2019-03-27得票数 5

回答已采纳

2回答

将JSON插入Hadoop

、、、、

我是否需要使用hive并为我的JSON创建Avro方案？或者，我是否需要将JSON作为字符串插入到特定列中？

浏览 0提问于2018-06-19得票数 0

2回答

什么是Oracle中的偏斜列

、、、

我发现了我的查询的一些瓶颈，它只从单个表中选择数据，然后需要时间和现在我在网上发现了一些概念，比如倾斜的列，那么它是什么呢以及倾斜的列如何影响查询的性能？

浏览 1提问于2016-02-20得票数 3

3回答

如何从文本文件中读取整数值并统计每个值在pyspark中出现的次数

、、

我想从下面显示的文本文件中读取，遍历每个单独的数字，并确定哪个数字出现的次数最多。我怎么才能在pyspark中做这件事呢？这是txt文件 1.4142135623 7309504880 1688724209 6980785696 7187537694 8073176679 7379907324 7846210703 8850387534 3276415727 3501384623 0912297024 9248360558 5073721264 4121497099 9358314132 2266592750 5592755799 9505011527 8206057147 010955997

浏览 18提问于2019-11-15得票数 0

1回答

Azure数据库中每个核任务数的优化

、、、、

项目概览

浏览 2提问于2019-02-19得票数 0

3回答

在Hadoop上使用MapReduce还是Spark进行批处理？

、、、

但是，Spark也可以用作Hadoop上的批处理框架，与MapReduce相比，它提供了可伸缩性、容错性和高性能。那么，我想知道在Hadoop上使用Spark作为批处理框架的当前挑战是什么？有什么想法吗？

浏览 2提问于2014-10-31得票数 5

5回答

计算数据帧组内的差异

、

(但很明显，同一日期将显示在许多行中，因为它将出现在多个代码行中，而相同的日期将显示在多个行中，因为它将出现在多个日期中。) 在每个组中，按其date

浏览 6提问于2013-12-18得票数 65

回答已采纳

2回答

Spark中的最佳实践来过滤数据，对结果数据执行不同的操作，然后将新的数据返回

、、

由于我刚开始使用Spark，所以我想问一个关于我在Spark中使用的模式的问题，但是不知道这是否是一种糟糕的实践(根据过滤器将数据分割成两部分，对它们执行不同的操作，然后将它们重新加入)。true).join(otherDf, Seq(id), "left_anti").distinct() 由于我的原始数据格式有很多行在其他情况下，我甚至需要执行3，4个过滤器，然后将不同的操作应用于单个数据帧，然后

浏览 6提问于2022-09-29得票数 2

7回答

将PySpark数据框列聚合值存储到变量中

、

因此，当我尝试获取事件的不同计数时 _ date，结果是一个整数变量，但是当我尝试获取同一列的max时，结果是一个dataframe。我想了解哪些操作会导致数据帧和变量。我还想知道如何将事件日期的最大值存储为变量生成整数类型的代码： loop_cnt=test1.select('event_date').distinct().count() type(loop_cnt

浏览 147提问于2016-05-03得票数 5

回答已采纳

1回答

熊猫:备用数据，群组和日期时间扩展到新的数据？

、、

现在，我执行了几个groupby操作(=countifs)，这些操作的条件是“pub_day”。同样，在所有正确的情况下，这些都是很好的和汇总的数字。现在出现了一个问题:接下来我想要做的是以连续格式将计算正确的groupby操作写成新的dataframe df2中的新列，这意味着在“pup_day”中添加丢失天数的行，并删除第二次包含特定日期的此类行FYI:当我在第一个df中为groupby操作添加一个新列时，当&#

浏览 1提问于2016-03-14得票数 2

回答已采纳

4回答

星火结构流自动将时间戳转换为本地时间

、、、、

我的时间戳在UTC和ISO8601中，但是使用结构化流，它会自动转换为本地时间。有办法阻止这种转换吗？我想把它放在世界协调时。输入：流动： .builder() .appName("my-app") .readStream() .format("

浏览 0提问于2018-02-13得票数 24

回答已采纳

2回答

在星火中选择不同的卡桑德拉

、、

CASSANDRA：SELECT DISTINCT key1, key2, key3 FROM schema.table;中的查询速度相当快，但是在RDD或spark.sql中放置相同类型的数据筛选器会非常缓慢地检索结果例如：var t1 = sc.cassandraTable("schema","table").select("key1", "key2", "key3").distinct() var t2 = sp

浏览 0提问于2018-04-27得票数 1

回答已采纳

10回答

什么是spark中的RDD

、、、

从这个链接：它提到：我对RDD的理解以及与spark和hadoop的关系真的很困惑。

浏览 91提问于2015-12-23得票数 46

回答已采纳

4回答

Scala火花:键/值结构的扁平数组

、

我有一个输入数据，其中包含一个数组类型的列。数组中的每个条目都是由一个键(大约四个值中的一个)和一个值组成的结构。我希望将其转换为一个数据帧，每个可能的键都有一个列，并在该行的数组中没有该值的情况下取消该值。键在任何数组中都不会被复制，但它们可能会出现故障或丢失。flattened = df .groupBy-但一列--上的组合会是什么。如果找到密钥是一个问

浏览 10提问于2020-05-08得票数 4

回答已采纳

13回答

用PySpark加载CSV文件

、、、、

file.csv') .collect() 虽然我的CSV文件是多列的。

浏览 31提问于2015-02-28得票数 125

回答已采纳

4回答

如何在增量表中删除重复项？

、、

有一个从增量表中删除数据的函数：deltaTable.delete(col("date"

浏览 2提问于2020-05-08得票数 3

4回答

在Oracle中处理修订

、、

我从"DataNode“读取所有内容，当发生更改时，我将当前条目写出到"DataNode_Revisions”，然后修改现有的"DataNode“记录。合乎道理? 这是最好的方法吗？我假设将所有这些都放在一个表中会导致大量的性能损失，不是吗？我的意思是，我会将记录的数量增加四倍以上，而现在已经有相当多了。但是，很少会发生写操作。"DataNode_Revisions“只在偶然的情况下被读取。我只是担心维护这么多表。"DataNode“是大约25个表中的一个，与这个表非常相似。

浏览 0提问于2010-11-24得票数 9

回答已采纳

2回答

大数据信号分析:更好的存储和查询信号数据的方法

、、、、

0.0,4.0,250.0,35.0 ... 10.0000126 S003 2015/04/22T16:00:00.034Z 0.0,0.0,200.0,00.0 ... 600.0将聚合函数应用于信号值FROM SIGNALS选择峰值超过1000.0的信号。将聚合应用于聚合FROM SIGNALS GROUP B

浏览 6提问于2016-04-24得票数 11

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

pyspark groupby使用字符串groupby键在输出中生成多行

PySpark数据帧将列熔化为行

将JSON插入Hadoop

什么是Oracle中的偏斜列

如何从文本文件中读取整数值并统计每个值在pyspark中出现的次数

Azure数据库中每个核任务数的优化

在Hadoop上使用MapReduce还是Spark进行批处理？

计算数据帧组内的差异

Spark中的最佳实践来过滤数据，对结果数据执行不同的操作，然后将新的数据返回

将PySpark数据框列聚合值存储到变量中

熊猫:备用数据，群组和日期时间扩展到新的数据？

星火结构流自动将时间戳转换为本地时间

在星火中选择不同的卡桑德拉

什么是spark中的RDD

Scala火花:键/值结构的扁平数组

用PySpark加载CSV文件

如何在增量表中删除重复项？

在Oracle中处理修订

大数据信号分析:更好的存储和查询信号数据的方法

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐