腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Spark using
Python
:将
RDD
输出保存为文本
文件
、
、
我正在尝试使用
python
在spark中解决单词计数问题。但是,当我尝试使用.saveAsTextFile命令将输出的
RDD
保存到文本
文件
中时,我会遇到这个问题。这是我的代码。请帮帮我。我被卡住了。
浏览 0
提问于2015-12-04
得票数 6
回答已采纳
2
回答
如何将printSchema的结果保存到PySpark中的
文件
、
、
现在,我需要将它保存在一个变量或文本
文件
中。 我试过下面的方法,但它们都没有用。
浏览 1
提问于2018-06-12
得票数 7
回答已采纳
1
回答
在集群中的执行器上运行
python
脚本[Scala/Spark]
、
、
、
、
我可以在
python
脚本中访问星火会话吗?或者我可以在
python
脚本中创建一个
文件
并将其保存到hdfs
文件
系统中?实际上,这正是我想要做的--我想在
python
脚本中创建csv
文件
,并将它们保存到hdfs中。例如: pip安装熊猫#!', 'w') as f: f.writ
浏览 1
提问于2022-02-22
得票数 1
1
回答
Python
Spark:将
RDD
的某些列
写入
文本
文件
、
、
、
、
我想要将
RDD
的某些列
写入
文本
文件
。目前,我正在使用熊猫来做这件事。pandas = df_2016.select('id', 'source', 'date', 'title', 'abstract', 'content').toPandas() 然后将该列转换为字符串
写入
文本
文件
title_string = ''.join(df_2016_pandas.title
浏览 12
提问于2017-06-23
得票数 0
4
回答
如何在Spark
python
中将生成的
RDD
写入
csv
文件
、
、
、
、
我有一个最终的
RDD
labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions)。我想要创建一个CSV
文件
,其中一列用于labels (上面输出中的元组的第一部分),另一列用于predictions(元组输出的第二部分)。但我不知道如何使用
Python
在Spark中
写入
CSV
文件
。 如何使用上述输出创建CSV
文件
?
浏览 194
提问于2015-08-09
得票数 26
回答已采纳
3
回答
在spark本地模式下从内部worker
写入
文件
不能
写入
吗?
、
为此,我需要从工作节点内部显式地
写入
一些数据,我认为我可以使用hadoop rest api在集群模式下运行时将
文件
写入
hdfs。但是,当在本地模式下运行代码时,我如何从worker任务内部
写入
文件
?= sc.textFile("file://path to file")
rdd
.map(lambda x:x.split("\t")[0],1).reduce(func_to_reduce);//how ca
浏览 4
提问于2017-03-06
得票数 3
回答已采纳
2
回答
将
RDD
保存为顺序
文件
、
、
、
我能够运行这个脚本来以文本格式保存
文件
,但是当我试图运行saveAsSequenceFile时,它就会出错。如果有人知道如何将
RDD
保存为序列
文件
,请让我知道这个过程。") 错误:调用z:org.apache.spark.api.
python
.PythonRDD.saveAsSequenceFile.时发生错误:org
浏览 4
提问于2015-12-28
得票数 1
回答已采纳
1
回答
为什么序列化持久化
RDD
占用的内存少于反序列化持久化
RDD
?
、
我读到,当
RDD
以某种形式的序列化(无论是默认的Java序列化还是类似于Kryo序列化)的方式持久化在内存中时,它占用内存中的空间更少。
浏览 3
提问于2015-08-13
得票数 5
回答已采纳
2
回答
pyspark.sql到JSON
、
例如,如果我运行:我看到它返回一个数据帧,我可以在上面调用'toJSON‘来获取一个
RDD
。但我找不到一种好的方法将其转换为json文档。
浏览 19
提问于2019-08-23
得票数 0
回答已采纳
1
回答
使用map的UDF或
RDD
处理?
、
、
、
、
使用map的UDF或
RDD
处理?我使用spark Structured streaming来使用数据,对于每个微批量,我将DF转换为
RDD
,并执行一些
python
graphkit操作,然后再次将
RDD
转换为DF以
写入
Kafka流。
浏览 23
提问于2020-06-26
得票数 1
2
回答
使用Apache Spark中的
Python
在第9位置获取字符串
、
、
、
因为行是一个
RDD
,所以它给出了一个语法错误,说明没有__getitem__。
浏览 6
提问于2015-09-24
得票数 0
回答已采纳
1
回答
在星火中按
RDD
执行组,并将每个组写成单独的Parquet
文件
、
、
、
我记忆中有一个
RDD
。我想使用一些任意函数对
RDD
进行分组,然后将每个单独的组写成一个单独的Parquet
文件
。Parquet
文件
。我可以看到,DataFrame API支持按以下方式编写Parquet
文件
(例如,如果由JSON组成):final SQLContext(
rdd
);这意味着整个DataFrame被
浏览 2
提问于2016-02-16
得票数 2
回答已采纳
3
回答
如何配置pyspark默认
写入
HDFS?
、
、
默认情况下,我正在尝试将spark
写入
HDFS。目前,当我在
RDD
上调用saveAsTextFile时,它会
写入
我的本地
文件
系统。具体地说,如果我这样做:
rdd
.saveAsTextFile("/tmp/sample") 它将
写入
我的本地
文件
系统中一个名为/tmp/sample的
文件
。但是,如果我这样做
浏览 0
提问于2017-11-28
得票数 1
2
回答
如果
文件
已经存在于pyspark中,如何覆盖
rdd
saveAsPickleFile(路径)?
、
、
、
如何在节省时间的同时覆盖
RDD
输出对象和任何现有路径。现在,我再次从输入
文件
中删除一行,并将
RDD
保存在相同的位置,这表明
文件
已经存在。
rdd
.coalesce(1).saveAsPickleFile("/home/administrator/work/foobar_seq1") 如果我在
RDD
浏览 0
提问于2018-03-28
得票数 3
1
回答
RDD
在
RDD
中的内存使用
、
、
、
让我们从冲积内存中创建一个
RDD
。
rdd
2 =
rdd
1.map(...)第二个问题的原因是我需要加入两个大的
RDD
,它们都是关于冲积
浏览 7
提问于2016-06-09
得票数 0
回答已采纳
3
回答
如何用模式推理将
RDD
[String]写到拼图
文件
中?
、
、
、
我的Spark Streaming作业需要处理
RDD
[String],其中字符串对应于csv
文件
的一行。我事先不知道模式,所以需要从
RDD
推断模式,然后将其内容
写入
parquet
文件
。如果我从磁盘中读取一个csv
文件
,我只需使用模式推断将所有内容加载到DataFrame中,并立即将其
写入
parquet。不过,在我的场景中,我的起点是一个
RDD
[String],它是流的结果。
浏览 5
提问于2017-06-14
得票数 2
1
回答
为什么Spark总是将相同数量的
文件
写入
HDFS?
、
、
应用程序从Kafka读取数据并将数据
写入
HDFS。在将数据
写入
HDFS之前,我执行了partitionBy,因此数据是分区
写入
的。每个分区在
写入
时都会得到3个
文件
。我的预期是,由coalesce命令设置的分区数量将设置HDFS中输出目录中的
文件
数量,然而,尽管由coalesce命令设置了分区数量,
文件
数量始终是3。我尝试使用3个执行器和6个执行器运行,但每个分区中的
文件
数量仍然是3个。
rdd
.isEmpty()) {
浏览 0
提问于2018-09-18
得票数 1
1
回答
Spark on YARN - saveAsTextFile()方法创建大量空零件
文件
、
、
我使用saveAsTextFile()方法将
RDD
存储为文本
文件
。有没有办法避免这种情况?
浏览 0
提问于2016-02-08
得票数 2
2
回答
星星之火:将
RDD
中的每条记录
写入
HDFS目录中的各个
文件
、
、
、
、
我需要将
RDD
中的每个记录
写入
HDFS中的单个
文件
。stream.foreachRDD{
rdd
=>
rdd
.foreach{ val value = msg._2 printlnjava.util.UUID.randomUUID.toStrin
浏览 2
提问于2017-02-14
得票数 4
2
回答
为pyspark
RDD
生成单个json
文件
、
、
我正在构建一个
Python
脚本,在其中我需要从json
RDD
生成一个json
文件
。下面是保存json
文件
的代码片段。json.loads(x))但我需要将json数据
写入
单个
文件
浏览 0
提问于2015-09-02
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python文件操作全套讲解(二):写入文件
python笔记19-yaml文件写入
python常识系列07->python利用xlwt写入excel文件
Python生成10万IP数据并写入文件
使用Python写入docx文件并控制字体颜色
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券