腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Python
中
从一
对
RDD
中
获
取值
、
如何从形式为[('key', (value1, value2))]的一
对
RDD
中
获取value1和value2。
浏览 11
提问于2017-07-07
得票数 0
1
回答
整数到所有可能对的
RDD
(有序)
、
、
我正在使用pyspark
从一
个int数组的
RDD
中找到所有可能的
对
。[[0, 1, 2],输出所有可能组合的
RDD
键值
对
:我想在
python
中
实现它,而不是scala。
浏览 4
提问于2020-12-28
得票数 0
2
回答
将星火
rdd
的泡沫化表示写入文件时出错。
、
、
、
、
我使用下面的代码来持久化星火
rdd
。
rdd
= sc.parallelize([1,2,3])import pickle错误信息是: at java.lang.Thread.run(Thread.java:722) 我认为
rdd
类似于句柄,我不需
浏览 6
提问于2017-11-30
得票数 2
4
回答
Spark是否缓存在工作节点或驱动节点(或两者都缓存)?
、
、
有谁能纠正我
对
坚持火种的理解吗? 如果我们
在
RDD
上执行了缓存(),那么它的值只缓存在那些最初计算
RDD
的节点上。这意味着,如果有一个由100个节点组成的集群,并且
在
第一和第二节点的分区中计算
RDD
。如果我们缓存了这个
RDD
,那么Spark将只
在
第一个或第二个工作节点中缓存它的值。因此,当这个Spark应用程序
在
以后的阶段尝试使用这个
RDD
时,那么Spark驱动程序必须从第一个/第二个节点获
取值</
浏览 3
提问于2016-08-28
得票数 23
回答已采纳
1
回答
将
python
函数传递给pyspark
中
的Scala
RDD
、
、
、
我有一个scala库(简单地说),它接收一个函数,将其应用于
RDD
并返回另一个
RDD
..val res =
rdd
.map(function) }import mylibrary.runFunction这个库打包在jar
中
,我现
浏览 14
提问于2019-11-14
得票数 0
1
回答
如何使用pyspark.resultiterable.ResultIterable对象
、
、
我
在
一
对
rdd
中
构造了1TB的记录,我希望按键
对
所有记录进行分组,然后只对值应用一个函数。我的代码如下:
rdd
_pair=
rdd
.map(lambda a: (a[0], a))
rdd
_pair.take'1', '2013/12/03 1
浏览 0
提问于2018-03-22
得票数 3
1
回答
RDD
中
的分区数和Spark
中
的性能
、
、
、
在
Pyspark
中
,我可以
从一
个列表创建一个
RDD
,并决定有多少个分区:sc.parallelize(xrange(0, 10), 4) 我决定
对
RDD
进行分区的分区数量
对
性能有何影响
浏览 21
提问于2016-03-05
得票数 43
回答已采纳
4
回答
如何在PySpark
中
删除
RDD
以释放资源?
、
、
如果我有一个不再需要的
RDD
,如何将其从内存
中
删除?要做到这一点,以下内容是否足够:谢谢!
浏览 1
提问于2015-01-17
得票数 24
1
回答
PySpark -广播火花数据
、
、
、
我想循环所有列,以便从另一个数据帧(
在
SchemaWithHeader colName结果为1 )中进行某些处理。例如,-循环是列-名称、年龄和薪资所必需的。方法1 Sch
浏览 2
提问于2018-12-26
得票数 0
1
回答
如何在火花流
中
以多批处理间隔传送数据流
、
、
这两个数据流是不同步的,这意味着时间stream1
中
的某些键-- t0可能出现在stream2
中
的time t1
中
,反之亦然。Contextq.add(empty_
rdd
); }); 稍后,这个空流与stream1统一(即union()),最后,
在<
浏览 0
提问于2016-05-20
得票数 5
回答已采纳
1
回答
带字典的PySpark约简键
、
、
、
、
为什么Spark强制从元组列表
中
构建
RDD
,以便在进行还原键转换的情况下?) at org.apache.spark.
rdd
.
RDD
.computeOrReadCheckpoint(
RDD
.scala:306) at org.apache.spark.
rdd
.
RDD
.iterator(
浏览 0
提问于2018-01-18
得票数 1
2
回答
scala
中
基于键的两
对
RDDs的比较
、
、
有没有一种方法来比较基于键的2
对
RDDs的值。例如:
RDD
2:
RDD
[(Int, String)] = {(5, "AAA"), (2, "XYZ"), (3, "LMN")} 我的任务是获
取值
不同的两个rdds
中
的键数。
浏览 6
提问于2017-10-06
得票数 1
1
回答
聚合字典的ReduceByKey方法
、
、
、
我有一个spark方法,在这个方法
中
,我运行了一个flatMap函数,该函数返回一个元组列表。元组
中
的键值是Timestamp,值是dict。)}, {'id': '2', 'val': '7M', 'date':Timestamp('2000-01-03 00:00:00')}]) ] 到目前为止,我已经尝试过了:output =
rdd
.flatMap
浏览 18
提问于2020-04-17
得票数 0
1
回答
PySpark代码是
在
JVM还是
中
运行的?
、
、
当我使用
python
3 t1.py运行以下名为t1.py的脚本时,我想了解在这个引擎盖下面发生了什么。具体来说,我有以下问题: 什么样的代码被提交到火花工作节点?是
python
代码还是提交给spark节点的等效Java代码?是还原
中
作为UDF处理的添加操作,因此运行在工作者节点上的
python
子进程
中
?如果添加操作运行在工人节点上的
python
子进程
中
,那么worker JVM是否为添加的分区
中
的每个数字与
python
子进程通信?如果
浏览 0
提问于2020-05-15
得票数 9
回答已采纳
1
回答
Pyspark: json对象
中
的
rdd
、
这是家庭作业
rdd
= sc.textFile('./hw2-files-10mb.txt')1)如何通过
rdd
方式选择用户
中
的'id_str‘? 我尝试了将
rdd
映射到返回field
浏览 0
提问于2018-10-03
得票数 1
1
回答
在
集群
中
的执行器上运行
python
脚本[Scala/Spark]
、
、
、
、
我有
python
脚本: print("hello " + line)def run(spark我可以
在
python
脚本
中
访问星火会话吗?或者我可以
在
python
脚本
中
创建一个文件并将其保存到hdfs文件系统
中
?实际上,这正是我想要做的--我想在
python
脚本
中<
浏览 1
提问于2022-02-22
得票数 1
1
回答
如何将操作输出保存在变量或
python
中
的
RDD
中
、
我刚开始使用
python
.I启动并实现它,我有一个问题集,需要将文件的第一行存储
在
RDD
中
,然后
对
其进行更多的转换。因此,我试图使用first() action.But使用first()操作,它只显示屏幕上的输出,但无法将其存储
在
另一个变量或
RDD
中
。
python
中
是否有一种方法可以将动作的输出存储
在
变量或
RDD
中
?
浏览 2
提问于2016-11-16
得票数 1
回答已采纳
1
回答
在
使用PySpark时,如何在Spark
中
实现
Python
数据结构?
、
、
、
我目前正在自学Spark programming,并试图用PySpark重新编写一个现有的
Python
应用程序。然而,我仍然
对
如何在PySpark中使用常规
Python
对象感到困惑。我了解Spark
中
的分布式数据结构,如
RDD
、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,如.map()、.reduceByKey()来操作这些对象。但是,如果我
在
PySpark
中
创建传统的
Python
数据对象,比如数组、列表
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
为什么
在
访问偏移量时,ClassCastException与重新分区的dstream一起发生流流失败?
、
、
在
我的星火应用程序
中
,我以如下方式
从一
个Kafka主题创建了一个DStream: .createDirectStream[String, Array[Byte], StringDecoderMessageAndMetadata[String, Array[Byte]] => (message.key(), message.message()) }之后,我使用asInstanceOf函数提交了
对
Kafka主题的偏移: directKafkaStream.foreachRDD { <
浏览 3
提问于2017-05-30
得票数 1
回答已采纳
1
回答
在
Spark word count
RDD
中
,如何
对
特定键的值进行索引
、
我有一个名为wc的
RDD
,它有( key,value)
对
,其中键是单词,值是单词
在
某个文档中出现的次数。例如:org.apache.spark.
rdd
.
RDD
[(String, Int)] (means
RDD
中
的每一
对
,我如何索引这个
RDD
来获得特定单词的计数(例如,
Python
)。在这方面的任何想
浏览 2
提问于2017-05-22
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
对Python中函数的学习
深入理解Python中的键值对
python在arcgis中的应用
ekf在python中的实现
在Python中如何在main函数中调用类中的方法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券