在Spark中进行聚合的最佳方式

、、

当我尝试执行此聚合时，内存将会耗尽。它工作得很好，但在一小部分数据上速度非常慢。我在pySpark中运行它。有没有另一种方法可以根据特定的组计算列的平均值，这样运行起来会更好？

浏览 7提问于2016-08-24得票数 0

1回答

Spark 1.5作为KAFKA 0.9或0.10的客户端

、

我可以使用Kafka consumer API编写Spark 1.5客户端，从KAFKA 0.9或0.10获取消息并对其进行处理吗？如果不能，那么使用Spark作为处理引擎获取消息并应用聚合和统计建模以生成最终输出的最佳方式是什么？

浏览 1提问于2016-07-28得票数 0

1回答

将GroupBy+aggregate转换为groupByKey

、、

我设计了一个如下所示的DF：|A |B ||1 |"bar"|df.groupby("A").collect() 但是，由于我从事的是一个大型的因此，我的问

浏览 0提问于2017-08-07得票数 1

回答已采纳

2回答

星火结构化流中同一数据基/数据集上的多个操作/聚合

、、

我用的是火花2.3.2。val kafkaSource = spark.readStream.option("kafka") ...val但是，当我尝试为每个聚合结果调用writeStream时： aggr1.writeStr

浏览 0提问于2019-03-19得票数 2

回答已采纳

1回答

如何在不使用flatMapsGroupWithState的情况下，使用结构化流2.3.0在spark中进行无状态聚合？

、、

如何在不使用flatMapsGroupWithState或Dstream API的情况下，使用结构化流2.3.0在spark中进行无状态聚合？寻找一种更具声明性的方式select count(*) from some_view 我希望输出只计算每批中可用的任何记录，而不是前一批中的聚合记录

浏览 0提问于2018-05-05得票数 2

1回答

如何在pyspark dataframe中将groupby转换为reducebykey？

、、、、

我感觉性能受到了group by的影响。取而代之的是，我想使用reducebykey。但我是这个领域的新手。请在下面找到我的场景，Step2:输入列总数为15列，其中5列为关键字段，其余为数值。Step3:除了上面的输入列之外，还需要从数值列派生更多的列。具有默认值的几列。第四步:我已经使用了group by和sum函数。如何用spark

浏览 0提问于2017-09-21得票数 1

1回答

Cassandra之上的Spark如何影响Cassandra数据建模？

、、

在与Cassandra打交道时，我学到的第一件事是，你需要非常小心地对待你的数据模型，因为Cassandra不支持joins，聚合等。所以你根据你的查询来建模你的数据，使用广泛的去正规化等。但是假设我已经决定在Cassandra之上运行Spark。Spark将允许进行连接和聚合，以及对数据进行不同的计算。所以我的问题是，当我在C

浏览 0提问于2015-06-26得票数 0

1回答

在Cassandra中，我应该使用什么数据结构来模仿“按计数器订货”？

假设我现在有一个这样的桌子{ commentid uuid, PRIMARY_KEY(contentid, commentid)本表的目的是跟踪评论和个别评论被“喜欢”的次数。我想要做的是得到顶部的评论(比如说20个顶级评论)，这取决于每个内容在这个表中的赞数。我知道没有办法按计数器订购，所以我想

浏览 2提问于2015-02-13得票数 2

回答已采纳

1回答

Apache Spark自定义聚合函数

使用Spark 2.0实现以下查询的最佳方式是什么？聚合器？UDAF？也许已经有类似的sparksql功能了？

浏览 18提问于2017-03-13得票数 0

0回答

spark Dataframe中的reducebykey和aggregatebykey

、、

我正在使用spark 2.0从拼图文件中读取数据。total=dfSumForeachId.agg(sum("sum(balance)")).first().getDouble(0) 为了获得总余额值，这是在数据帧上使用action first()获取它的最佳方法吗在spark 2.0中，是否可以使用groupby key，它是否具有与rdd上的groupbykey相同的性能问题?例如，它是否需要在网络上混洗整个数

浏览 5提问于2017-01-03得票数 2

回答已采纳

2回答

在spark.sql中选择具有组的多个元素

、、、

在选择我正在使用的多个元素代码的sql spark中，是否有按表分组的方法：df.createOrReplaceTempView("GETBYID")val sqlDF = spark.sql( "SELECT count(customerId)

浏览 7提问于2017-01-02得票数 2

回答已采纳

1回答

一个150兆的mongodb集合的同步服务的最佳方法与火花sql？

、、、、

我在一个单一的实例中有一个 MongoDB的MongoDB 150 m文档集合。每个文档都是一个产品。产品有价格和类别。到目前为止，我尝试用两种不同的方式来实现它--这两种方式似乎都太慢，无法公开同步服务(客户机将不得不等待太长时间)：使用本机MongoDB聚合器：当产品数量很大时，使用原生MongoDB聚合器似乎太慢了MongoDB + Spark ：使用过滤下推获取给定类别的产品，并处理火花集群节点内的平均

浏览 2提问于2017-10-02得票数 0

回答已采纳

1回答

如何检查在spark-streaming中有效执行reduceByKey

、

我运行的是Spark 2.3.1独立集群。我的工作是每2分钟消费一次Kafka迷你批次，并将聚合写到某个商店。我的问题--据我所知，spark应该使用组合器来进行reduceByKey操作，这应该会大大减少混洗的大小。为什么DAG没有显示这个，我如何检查那个？我应该查看哪些配置属性/指标来检查该作业是否已配置并以最佳方式运行。对于此作业，执行器使用10G内存运行

浏览 4提问于2019-05-29得票数 0

1回答

使用hive优化hive数据聚合

、、、、

我有一个带有followig模式(event_id，country，unit_id，date)的hive表(8,000,000条记录)，我需要将这些数据导出到一个文本文件中，满足以下要求:1- event_id聚合(组合)行。2-聚合的行必须根据日期进行排序。使用spark完成这项工作的最佳性能明智解决方案是什么？注意:这应该是一个批处理作业

浏览 6提问于2017-05-05得票数 0

1回答

如何处理从最后一次输出到接收器的流中的消息？

、

我是spark的新手，我有一个想要以追加输出方式发出聚合的用例。我知道追加模式不适合聚合，spark只有在我们提供窗口操作(以及水印)的情况下才支持该功能。现在，我想让spark做的是忘记旧的消息(已经在流中处理的消息)，只获取在最后一次输出和当前时间(即当前微批)之间到达的消息，并在其上计算

浏览 2提问于2021-06-09得票数 0

0回答

从spark作业动态获取用于使用ADLS进行身份验证的用户凭据

、、、、

有没有一种方法可以从spark作业中获取用户凭据以使用ADLS进行身份验证。我正在尝试编写一个库，供用户在他们的spark作业中使用来读取数据，并希望隐藏实现细节。另外，从spark job中获取用户凭据的最佳方式是什么？

浏览 6提问于2017-12-14得票数 0

1回答

Spark对已经正确分配的分区进行交换

、、、、

我用两列连接两个数据集，结果是包含550亿行的数据集。之后，我必须按不同于join中所用列的列对此DS进行聚合。问题是，Spark在连接之后进行交换分区(占用550亿行的时间太多)，尽管数据已经正确分布，因为聚合列是唯一的。我知道聚合密钥是正确分发的，有没有办法告诉Spark app？

浏览 1提问于2017-10-26得票数 0

1回答

如何使用Spark在Apache Solr上构建聚合

、、

我有一个要求建立聚合的数据，我们收到我们的Apache Kafka… 我有点不知道该走哪条技术路线…… 似乎人们看到的是标准的方式，一群Apache Kafka <-> Apache Spark <-> Solr Bitnami Data Platform 我找不到具体的例子说明这是如何工作的，但我也在问自己，是否有任何解决方案 Apache Kafka <-> Kafka Con

浏览 34提问于2021-11-11得票数 0

1回答

获取Spark* RDD中每个键的最大值*

、、、

在spark RDD中返回与每个唯一键关联的最大行(值)的最佳方法是什么？[(v, 3), (v, 1), (w, 1), (y, 1), (y, 2),我需要返回

浏览 1提问于2016-05-04得票数 11

回答已采纳

1回答

是否可以使用spark的jdbc驱动程序将apache spark与jasper集成？

、、、

我们想使用apache spark进行实时分析吗？我们目前使用hive/MR进行数据处理，使用mysqlsql存储聚合结果，并使用jasper报告进行分析？我们正在探索在hdfs或cassandra上运行apache spark的过程中，唯一的问题是spark是否有办法与jasper服务器集成？如果不是，还有什么UI选项可以与spark一起使用？

浏览 1提问于2015-02-21得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark 1.5作为KAFKA 0.9或0.10的客户端

将GroupBy+aggregate转换为groupByKey

星火结构化流中同一数据基/数据集上的多个操作/聚合

如何在不使用flatMapsGroupWithState的情况下，使用结构化流2.3.0在spark中进行无状态聚合？

如何在pyspark dataframe中将groupby转换为reducebykey？

Cassandra之上的Spark如何影响Cassandra数据建模？

在Cassandra中，我应该使用什么数据结构来模仿“按计数器订货”？

Apache Spark自定义聚合函数

spark Dataframe中的reducebykey和aggregatebykey

在spark.sql中选择具有组的多个元素

一个150兆的mongodb集合的同步服务的最佳方法与火花sql？

如何检查在spark-streaming中有效执行reduceByKey

使用hive优化hive数据聚合

如何处理从最后一次输出到接收器的流中的消息？

从spark作业动态获取用于使用ADLS进行身份验证的用户凭据

Spark对已经正确分配的分区进行交换

如何使用Spark在Apache Solr上构建聚合

获取Spark* RDD中每个键的最大值*

是否可以使用spark的jdbc驱动程序将apache spark与jasper集成？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐