腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4265)
视频
沙龙
1
回答
Pyspark
()&
textFile
()
无法
识别
SaveAsTextFile
元素
的
列表
格式
、
我有一个rdd,它
的
元素
是以下(('string', 'string'), int)
格式
的
列表
: print(my_rdd.take(1))read_
浏览 24
提问于2019-04-30
得票数 0
回答已采纳
2
回答
如何将
列表
保存到spark中
的
文件?
、
、
我有如下数据集:23458ef12111223345rdd = spark_context.
textFile
('a.tx').takeSample(False, 3)所以takeSample返回list,它会有一个错误: 'list' object hasno attribute '
saveAsTex
浏览 0
提问于2016-12-26
得票数 7
回答已采纳
2
回答
将RDD保存为顺序文件
、
、
、
我能够运行这个脚本来以文本
格式
保存文件,但是当我试图运行saveAsSequenceFile时,它就会出错。如果有人知道如何将RDD保存为序列文件,请让我知道这个过程。dataRDD = sc.
textFile
("/user/cloudera/sqoop_import/departments") dataRDD.
saveAsTextFile
("/user/cloudera/
pyspark
/departments&q
浏览 4
提问于2015-12-28
得票数 1
回答已采纳
1
回答
PySpark
:将字典python输出转换为RDD /或其他可保存(HDFS)
格式
、
、
、
、
我是Spark /
Pyspark
/ HDFS
的
新手,我正在尝试用以下代码直接从HDFS加载一个.json文件:dictionary_output.
saveAsTextFile
('/path/') 不适用于字典。所以我
浏览 2
提问于2017-05-16
得票数 1
1
回答
从文本文件输出中删除u和方括号
、
我需要将spark程序中
的
值以以下
格式
输出到文本文件中:但是,我目前
的
输出是:有没有办法让我重新
格式
化输出,所以当它被写入文本文件时,它是否是第一种
格式
。下面是我
的
代码:import resc.setLogLevel(fields[2]) int(fields[3
浏览 1
提问于2021-12-07
得票数 0
1
回答
处理内部
的
数据,或将其保存到Dataframe或外部文件中
、
、
、
我正在使用HashingTF和IDF计算TF和国防军,并且使用以下代码:from
pyspark
.mllib.feature importHashingTFdocuments = sc.
textFile
("random.txt").map(lambda
浏览 0
提问于2016-02-23
得票数 0
回答已采纳
1
回答
对文本文件中
的
值集合进行排序,并将排序后
的
值保存回使用
pyspark
的
文本文件。
、
、
、
我正在尝试用以下
格式
对文本文件进行排序(input.txt):a2 pqdistFile = sc.
textFile
(input.txt)words.
saveAsTextFile
("output")产出/部分-00000 [u'a2
浏览 2
提问于2016-03-16
得票数 1
回答已采纳
1
回答
Spark-submit with Stocator失败,类com.ibm.stocator.fs.ObjectStoreFileSystem未找到错误
、
、
、
、
我正在尝试通过拉取存储在COS中
的
文本文件,在Kubernetes集群上运行spark-submit wordcount Python。 对于配置,我遵循Stocator README.md .python/wordcount.py", line 40, in <module> File "/opt/spark/python/lib/
pyspark
.zip/
pyspark
浏览 23
提问于2021-01-12
得票数 0
回答已采纳
1
回答
从takeOrdered返回一个RDD,而不是一个
列表
、
、
一个非常常见
的
操作是获取文件
的
一个小
的
ish子集并导出它以供检查: .takeOrdered(100) 我
的
问题是,takeOrdered正在返回一个
列表
,而不是RDD,因此
saveAsTextFile
无法
工作AttributeErro
浏览 3
提问于2015-09-01
得票数 4
回答已采纳
1
回答
Spark Python map函数:编码utf-8时出错
、
、
、
、
我
的
文本文件是使用UTF-8
的
越南人
的
母语。在我使用map函数之后,输出似乎不符合
格式
。我已经将代码分离并一步一步输出。我注意到map:(word,1)之后
的
编码错误。下面是我
的
源代码。# -*- coding: utf8 -*-import os, sys import("local"
浏览 5
提问于2016-08-02
得票数 0
回答已采纳
3
回答
将来自成对RDD
的
文件保存在HDFS中
、
、
、
下面是我用HDFS编写
的
python脚本。RDD是一对RDD.The脚本,但是它可以在HDFS.Is中创建一个条目,因为它可以删除元组,而只在HDFS中创建逗号分隔
的
条目。import sys print 'Insufficient arguments'sys.exit() initialrdd1 = sc.
textFile
(sys.ar
浏览 0
提问于2016-09-28
得票数 0
1
回答
PySpark
saveAsTextFile
编写
的
内容与python编写
的
内容不同。
、
我正在使用
pyspark
编写二进制文件,但其内容与编写python操作
的
内容不同。电火花
saveAsTextFile
: .map(lambda x:��;^G��^@}d^E�E�5#���>rdd = sc.
textFile
(gidgid_output_dir+"/part-
浏览 0
提问于2019-04-08
得票数 0
2
回答
将
列表
转换为RDD
、
、
、
此代码生成一个错误:AttributeError:'list‘对象没有属性'
saveAsTextFile
'rdd = file.map(lambda line: (line.split(',')[0],line.split(',')[4])).coll
浏览 0
提问于2018-04-17
得票数 0
回答已采纳
1
回答
将一个简单
的
字符串作为文本文件存储在蔚蓝突触中(到数据湖gen2)
、
、
、
我试图在datalakeGen2中将一个简单
的
字符串存储为文本文件,编写在Synapse记事本上
的
python代码。但它似乎并不是直接
的
。我试图将文本转换为rdd,然后存储:from
pyspark
import SparkContext rdd_text = sc.parallelize(list(str)).co
浏览 2
提问于2021-06-29
得票数 0
回答已采纳
4
回答
将多个项保存到HDFS中(spark、python、py行之有效、jupyter)
、
、
、
我能够像这样轻松地从HDFS加载文件:我能写出这样
的
输出:list = ['text1.txt', 'text2.txt', 'text3.txt', 'text4.txt'] text_
浏览 5
提问于2017-05-11
得票数 1
2
回答
如何更改pysark中DataFrame
的
hdfs块大小
、
、
、
这似乎与 ####################from
pyspark
.sq
浏览 0
提问于2018-03-14
得票数 0
2
回答
由火花一个接一个地处理几个文件
、
我需要用Apache实现一个工作流
的
帮助。我
的
任务在下一个: var source = sc.
textFile
("/source/data*.gz");JavaSparkContext sc = new JavaSp
浏览 3
提问于2016-03-12
得票数 4
1
回答
Python按键平均元组值
、
、
我试着逐段找出单词
的
平均长度。数据是从文本文件中提取
的
,
格式
为1_…其中每一行都有一个段落号。到目前为止这是我
的
代码:sc = SparkContext('local', 'longest')lines = text.map(lambda line: (line.split(
浏览 1
提问于2020-08-19
得票数 0
回答已采纳
1
回答
PySpark
,错误调用
saveAsTextFile
、
、
这就是我想要做
的
:l = l.map(lambda x: map(int, x))output = lc.map(lambda x: str(x[0]) + ";" + str(x[1]) + ";" + str(cosineSim(x[0], x[1])))` 我
浏览 5
提问于2015-02-13
得票数 0
2
回答
如何将RDD保存到HDFS中并在以后将其读回?
、
、
、
、
我有一个RDD,它
的
元素
类型是(Long,String)。出于某些原因,我想将整个RDD保存到HDFS中,然后在Spark程序中读回该RDD。这样做有可能吗?如果是这样,又是如何做到
的
呢?
浏览 0
提问于2016-10-16
得票数 15
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python Spark安装及配置步骤
遇见YI算法之初识Pyspark(二)
Spark-2
机器学习实践:如何将Spark与Python结合?
如何在CDH集群上部署Python3运行环境及运行Python作业
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券