腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
对
具有
多个
字段
的
值
使用
reduceByKey
、
、
我有一个键值rdd,其元素形式为:我希望
使用
reduceByKey
能够为同一个键分别收集所有v1和v2
的
总和,并在同一索引中将所有1相加,因此得到
的
缩减后
的
rdd
具有
:我试了几次,比如:和其他几次类似的试验,但都是徒劳
的
浏览 15
提问于2017-01-25
得票数 2
回答已采纳
1
回答
具有
多个
值
的
PySpark
reduceByKey
、
、
所以虽然我有和这个问题一样
的
标题:A.
reduceByKey
(lambda x,
浏览 0
提问于2016-09-16
得票数 0
回答已采纳
1
回答
Pyspark
RDD
ReduceByKey
多功能
、
、
、
我有一个名为DF
的
PySpark
DataFrame,它有(K,V)
对
。我想在
ReduceByKey
中
应用
多个
函数。例如,我有以下三个简单
的
函数:当我只应用一个函数时,例如,,执行以下三项工作: DF.
reduceByKey
(sumFunc) #works
浏览 0
提问于2016-02-24
得票数 2
1
回答
PySpark
-聚合还是按
多个
键缩减?
、
我有一个
具有
以下元组格式
的
RDD:我只想按(a, (b,c))和d进行分组,如下所示:
在
pySpark
中
如何按
多个
键分组?在这种情况下,
reduceByKey
和aggregateByKey哪个函数更优?
浏览 6
提问于2017-12-19
得票数 0
1
回答
Spark
中
groupBy
的
替代方案
、
、
、
、
,分别
使用
窗口函数和groupBy。
使用
这两种方法,我都得到了想要
的
结果。where("rank = 1")val df2 = df.groupBy(df("id")).agg(collect_list($"json_data").as("json_data"))
使用
这两种方法,我获得了相同
的
性能。但是阅读有关Spark
的
文档,似乎这两种方法都效率不高,因为
具有
相同键
浏览 0
提问于2018-06-05
得票数 3
1
回答
在
Spark中
使用
reduceByKey
的
正确方法是什么
、
、
、
、
我是apache spark
的
新手,不知道我是误解了
reduceByKey
还是遇到了bug。我
使用
spark-1.4.1-bin-hadoop1构建,因为spark-1.4.1-bin-hadoop2
中
的
python Cassandra接口有问题。
reduceByKey
(lambda x,y: y)返回最后一个元组
的
第一个
值
,但是
reduceByKey
(lambda x,y: x)抛出异常。尝试
使用
reduc
浏览 4
提问于2015-09-24
得票数 0
2
回答
获取RDD
中
每个键
的
最大
值
和最小
值
、
、
、
、
spark.sparkContextrdd = ssc.sparkContext.parallelize(pd_binance)以下是结果
的
一小部分0.02704600', '3.90800000'], ['0.02704700', '7.44600000'] 我想要得到每个键
的
最大<em
浏览 6
提问于2021-01-02
得票数 1
1
回答
用电火花将时间戳写到Postgres
、
、
、
、
我正在Python上开发一个Spark脚本(
使用
Pyspark
)。我有一个函数,它用一些
字段
返回一个Row,包括processed_data1是一个有效
的
日期时间字符串编辑显示完整
的
代码: def __init__(self, user,
浏览 5
提问于2017-01-19
得票数 0
回答已采纳
1
回答
在
reduceByKey
() api spark
中
获取密钥
、
有没有一种方法可以
在
reduceByKey
()函数
的
pyspark
中
获得键
的
名称,这样我就可以获得传递给
reduceByKey
()函数
的
两个
值
之间
的
公共键?例如://can i get the key value common
浏览 3
提问于2017-03-03
得票数 0
1
回答
对
reducedByKey
的
对表示
使用
(,)和[,]
的
区别
、
、
、
我正在应用一个映射,然后
使用
pyspark
在
RDD上应用
reduceByKey
转换。my_rdd_out = my_rdd.map(lambda r: [r['my_id'], [[r['my_value']]]])\ .map(lambda r: r[1]) 这里
的<
浏览 0
提问于2016-09-26
得票数 0
回答已采纳
1
回答
在
PySpark
中
使用
reduceByKey
()无法获得正确
的
平均值
、
、
我正在学习
PySpark
。我一直试图通过“性别”(男性('M'),女性(‘F’))
在
键/
值
RDD中
使用
reduceByKey
()转换来获得平均体重。我
使用
的
代码是:def get_mean(*args):‘我从这段代码
中
得到
浏览 0
提问于2021-08-04
得票数 0
1
回答
当
reduceByKey
运行时会发生什么?
我
的
mapToPair函数产生下面的输出。(a,1) (a,1) (b,1) private static final Function2<Integer, Integer, IntegerInteger a, Integer b) throws Exception { }它工作得很好,有人能解释一下这段代码
在
执行
对
(b,1)时是如何工作<
浏览 1
提问于2015-02-11
得票数 0
回答已采纳
4
回答
何时
使用
countByValue,何时
使用
map().
reduceByKey
()
、
、
、
我
对
scala很陌生,我正在编写一个简单
的
wordCount示例。因此,我正在
使用
countByValue,如下所示:val words = lines.flatMap(x => x.split("\\W+")).map(x => x.toLowerCase()) val wordCo
浏览 0
提问于2018-10-21
得票数 5
回答已采纳
1
回答
火花-最大/最小参数
、
在
Pyspark
中
,当我们需要基于(Key,Value)获得总计(SUM)时,我们
的
查询如下:当我们需要为(Key,Value)查找MAX / MIN
值
时,我们
的
查询内容如下为什么我们不
使用
x[1]、Y[
浏览 2
提问于2016-12-31
得票数 1
1
回答
Reducing (Key,Value),其中value是Spark
中
的
字典
、
、
、
、
我
的
问题是,我
使用
了一个map函数来创建表单(key,dict)
的
Rdd,如下所示
的
[(0, {‘f_0’:’-0.5’}), (0, {‘f_1’:’-0.67’}), (1, {‘f_0’:’-0.36’}), (1, {‘f_1’:’-1.5’})] 按键缩减
的
所需形式应为:[(0, {’f_0’:’-0.5’,’f_1’:’-0.67’}), (1, {‘f_0’:’-0.36’, ‘f_1’:’-1.5’})] 我正在
使用
pyspark
,python on d
浏览 15
提问于2019-09-14
得票数 1
1
回答
作为
PySpark
的
reduceByKey
键
的
列表
、
、
、
我试图
在
格式为
reduceByKey
的
(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ...数据上调用
pyspark
的
(([a,b,c], 1), ([a,b,通过简单地应用.
reduceByKey
(add),
pyspark
似乎不会接受数组作为普通键
的
键,即
值
约简。我已经尝试过先通过.map((x,y): (str(x),y))将数组转换为字符串,但这不起作用,因为字符串
的
后
浏览 3
提问于2015-07-14
得票数 8
回答已采纳
9
回答
PySpark
-对数据格式
中
的
列进行求和,并以int形式返回结果
、
、
、
我有一列数字
的
电火花数据。我需要对该列进行求和,然后
在
python变量中将结果作为int返回。+-----------++-----------++-----------+ 我会把130作为一个int返回到一个变量
中
,以便在程序
中
的
其他地方
使用
浏览 22
提问于2017-12-14
得票数 56
回答已采纳
1
回答
在
使用
PySpark
时,如何在Spark
中
实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然
对
如何在
PySpark
中
使用
常规Python对象感到困惑。我了解Spark
中
的
分布式数据结构,如RDD、DataFrame、Datasets、vector等。Spark有自己
的
转换操作和动作操作,如.map()、.
reduceByKey
()来操作这些对象。但是,如果我
在
PySpark
中<
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
Spark
reduceByKey
接收自己
的
输出作为后续调用
的
输入
、
我有一个flatMap步骤,它读取一个点,并计算成对
的
相似性矩阵
中
的
各种“块”,以使这个点驻留(我想这是一种比天真的O(n^2)计算略有效
的
方法;如果您好奇,请参阅以获得我
的
灵感)。,每个键都是一个整数--最终
的
n到n
对
相似矩阵
中
的
唯一块--
值
是一个由两个整数和一个字符串组成
的
3元素列表。问题是:当
reduceByKey
调用pairwise_blocks方法时,早期迭代
的<
浏览 4
提问于2014-07-22
得票数 0
回答已采纳
1
回答
PySpark
:迭代PairRDD
中
的
值
、
、
如何在RDD(key,value)
中
迭代
值
。object at 0xb0e824ac>)]tsRDD.map(lambda x:(x,1))).countByKey().items()`[('abc', 2), ('pqr', 1), ('xyz', 2)]` 但是我需要
使用
.map .
red
浏览 1
提问于2015-06-30
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python yield在函数中起返回值中的使用
如何设置在具有数据有效性的单元格中输入非法值
使用 Python 在 JMeter 中实现循环获取返回值的高效性能测试
在VBA中如何使用动态数组,以及利用动态数组去除重复值的方法
Spark入门-常用函数汇总
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券