腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
类似于
Spark
中
的
groupByKey
(),
但
使用
的
是
SQL
查询
、
、
、
我试着让转到仅
使用
SQL
查询
。这有点
类似于
在pyspark中
使用
groupByKey
()。 有没有办法做到这一点?
浏览 4
提问于2021-03-15
得票数 0
回答已采纳
2
回答
星火RDD
groupByKey
+ join与join性能
、
、
、
我正在
使用
星火在集群上,我正在与其他用户共享。因此,仅仅根据运行时间来判断哪个代码运行效率更高
是
不可靠
的
。因为当我运行效率更高
的
代码时,可能会有人运行巨大
的
数据,使我
的
代码执行时间更长。所以我可以问两个问题: rdd1.
groupByKey
().join(rdd2) 似乎花了更长
的</em
浏览 4
提问于2015-10-24
得票数 0
回答已采纳
1
回答
Spark
SQL
中
Group By子句
的
底层实现
、
Spark
SQL
中
Group By子句
的
底层实现是什么?我知道
Spark
支持下面两种类型
的
Group by操作,即
GroupByKey
和ReduceByKey。ReduceByKey
是
一种map side reduce,它提供了比
GroupByKey
更好
的
性能。在我们
的
应用程序代码
中
,我们在
Spark
Dataframe上
使用
Spark
浏览 0
提问于2019-08-30
得票数 1
1
回答
pyspark
使用
sql
查询
并执行group by优化
、
在
spark
中
,人们也可以
使用
spark
api函数来编写
sql
查询
。应该始终
使用
ReduceByKey而不是
groupbykey
,因为它可以防止更多
的
混洗。我想知道,当您通过注册数据帧来
使用
sql
查询
时,我们如何
使用
reduceby?在
sql
查询
中
,只有group by,没有reduce。在内部,
使用
浏览 21
提问于2020-09-07
得票数 0
1
回答
如何在pyspark dataframe中将groupby转换为reducebykey?
、
、
、
、
我感觉性能受到了group by
的
影响。取而代之
的
是
,我想
使用
reducebykey。但我
是
这个领域
的
新手。请在下面找到我
的
场景,Step2:输入列总数为15列,其中5列为关键字段,其余为数值。Step3:除了上面的输入列之外,还需要从数值列派生更多
的
列。具有默认值
的
几列。 第四步:我已经<em
浏览 0
提问于2017-09-21
得票数 1
2
回答
将Scala
中
的
行转换为列
、
、
我有一个数据库表,其中包含单击
的
唯一用户I和项。例如:一千三百四十五一千七百八十四5,897我希望
使用
spark
SQL
将这些数据转换成以下格式(如果可能的话,在Scala
中
)
浏览 0
提问于2015-09-09
得票数 0
回答已采纳
1
回答
星火数据集中
的
groupByKey
、
、
当数据集上
使用
groupByKey
时,请帮助我理解传递给它
的
参数data: org.apache.
spark
.
sql
.Dataset[String] = [value: string] scala> data.flatMap(_.split(" ")).
groupByKey
(l=>l).cou
浏览 1
提问于2017-02-16
得票数 2
1
回答
在
spark
中
使用
KeyValueGroupedDataset cogroup
、
我想在
spark
的
KeyValueGroupedDataset上
使用
cogroup方法。下面
是
一次scala尝试,
但
得到了一个错误:val x1 = Seq(("a", 36), ("b", 33), ("corg.apache.
spark
.
sql
.Encoder[R])org.apache.
sp
浏览 0
提问于2018-01-17
得票数 3
回答已采纳
1
回答
理解星火结构流并行性
、
、
我
是
星火世界
的
新手,在一些概念上苦苦挣扎。 当
使用
由Kafka提供
的
Spark
结构化流源时,并行性
是
如何发生
的
?,数据集
的
分区数
是
基于
spark
.
sql
.shuffle.partitions参数
的
。对于每一批(从卡夫卡拉),被拉
的
项目会被分配到
spark
.
sql
.shuffle.partitions
的
数量<em
浏览 3
提问于2018-01-13
得票数 8
回答已采纳
1
回答
花费了太多时间
、
、
我
的
问题
是
。1) dataframes
的
groupby是否与rdd‘d
的
groupbykey
(对所有数据执行混乱)相同,如果这样做,是否会迁移到dataset方法
groupbykey
.reducegroupes,有200个任务完成了分组,增加这些任务
的
数量会有帮助吗?我该怎么做呢?我就是这样运行
的
--class Main \--deploy-mode client \
浏览 0
提问于2018-06-19
得票数 0
回答已采纳
1
回答
为什么这个PageRank作业
使用
数据集要比
使用
RDD慢得多?
、
、
、
我
使用
较新
的
Dataset API在Java语言中实现了PageRank
的
。当我将我
的
代码与
使用
较旧
的
RDD API
的
示例进行基准测试时,我发现我
的
代码需要186秒,而基线只需要109秒。造成这种差异
的
原因是什么?(旁注:即使数据库只包含少数几个条目,
Spark
也要花费数百秒
的
时间,这正常吗?)我
的
代码: Dataset<Row> outLinks =
spar
浏览 1
提问于2017-12-01
得票数 0
2
回答
没有模式
的
行上
的
java.lang.UnsupportedOperationExceptionfieldIndex未定义: row.getAs[String]上
的
异常
、
下面的代码将引发一个异常:未定义架构
的
行上
的
java.lang.UnsupportedOperationException: fieldIndex。这种情况发生在调用了在
使用
groupByKey
、groupedByKey和flatMap对数据after进行flatMap和ExpressionEncoder调用之后返回
的
数据帧上。逻辑流: originalDf->
groupByKey
->flatMap->
groupByKey
->flatMap-&g
浏览 2
提问于2018-11-20
得票数 7
回答已采纳
1
回答
我能把
groupByKey
调用链接到pair_rdd
中
吗?
、
在
groupByKey
()
中
,可以在pair_rdd上链接两次pair_rdd调用吗?这是我
的
密码。首先,通过外部键调用
groupByKey
()调用组,然后将其赋予映射函数,在该函数
中
,我希望再次将resultIterable对象转换为pair_rdd,这样我就可以执行第二个
groupByKey
()并将我
的
函数映射到它(既然我在减少,我想我也可以在那里
使用
redu
浏览 1
提问于2021-05-04
得票数 0
1
回答
在火花数据集上
使用
groupByKey
中
的
最小/最大操作
、
、
我正在尝试实现min和max在agg
中
的
groupByKey
操作。代码如下所示:import org.apache.
spark
.
sql
.TypedColumn count => typedCount, sum => t
浏览 1
提问于2019-07-23
得票数 2
1
回答
SparkSQL聚合器:类型错配错误
、
、
我
使用
的
数据库社区版与火花2.0预览。我尝试了以下(简单)代码:import org.apache.
spark
.
sql
.Encoder[C1,SeqC1]val g_c1 = teams.
groupByKey
(_.f1).aggSeqC1
浏览 0
提问于2016-06-21
得票数 0
回答已采纳
2
回答
星星之火:
使用
groupByKey
创建索引以生成排序
的
、不同
的
值列表?
、
我正在
使用
Spark
创建一个“倒排索引”,该索引将将一个英语令牌映射回找到令牌
的
documentIds。其中
的
值
是
一个documentIds列表,它是排序
的
和distinct (唯一
的
)。到目前为止,我
的
情况如下:var data = Array((100, "
spark
"), (50, "
spark<
浏览 0
提问于2016-02-18
得票数 0
1
回答
星星之火groupBy OutOfMemory灾难
我正在一个相当小
的
数据集上做一个简单
的
groupBy ( HDFS
中
的
80个文件,总共很少有)。我在一个纱线集群
中
的
8台低内存机器上运行星火,即
类似于
:val keyvals) 我可以在没有问题
浏览 2
提问于2014-08-05
得票数 7
回答已采纳
1
回答
如何在星火中显示KeyValueGroupedDataset?
、
、
、
我正在努力学习星火
的
数据集。有一件事我无法理解,那就是如何显示KeyValueGroupedDataset,因为show不适合它。另外,map对于KeyValuGroupedDataSet
的
等效性是什么?如果有人举几个例子,我将不胜感激。
浏览 1
提问于2017-05-11
得票数 9
回答已采纳
1
回答
如何在存储为字符串变量时执行
spark
多行
查询
?
、
、
、
我有
类似于
多行
查询
的
代码 hiveInsertIntoTable.foreach(println) println(actualQuery)
spark
.
sql
(s"truncatetable $tableTruncate&quo
浏览 0
提问于2018-05-22
得票数 1
回答已采纳
2
回答
在apache火花生产场景
中
处理倾斜数据
、
谁能解释在Apache
的
生产中如何处理倾斜
的
数据?我们
使用
"
spark
-submit"提交了
spark
作业,并且在
spark
中观察到很少有任务花费很长
的
时间,这表明存在偏差。(2)我们是否需要终止作业,然后在jar
中
包含倾斜
的
解决方案并重新提交作业? (3)能否通过直接从shell运行(合并)之类
的
命令来解决这个问题,而不杀死作业?
浏览 0
提问于2018-06-25
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
什么是Spark SQL,它的作用是什么?
在 MySQL 中使用 explain 查询 SQL 的执行计划
使用SQL理解Django中的Group By
灵活使用 SQLAlchemy 中的 ORM 查询
Uber机器学习平台Michelangelo是如何使用Spark模型的?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券