Pyspark ()& textFile()无法识别SaveAsTextFile元素的列表格式

、

我有一个rdd，它的元素是以下(('string', 'string'), int)格式的列表： print(my_rdd.take(1))read_

浏览 24提问于2019-04-30得票数 0

回答已采纳

2回答

如何将列表保存到spark中的文件？

、、

我有如下数据集：23458ef12111223345rdd = spark_context.textFile('a.tx').takeSample(False, 3)所以takeSample返回list，它会有一个错误： 'list' object hasno attribute 'saveAsTex

浏览 0提问于2016-12-26得票数 7

回答已采纳

2回答

我能够运行这个脚本来以文本格式保存文件，但是当我试图运行saveAsSequenceFile时，它就会出错。如果有人知道如何将RDD保存为序列文件，请让我知道这个过程。dataRDD = sc.textFile("/user/cloudera/sqoop_import/departments") dataRDD.saveAsTextFile("/user/cloudera/pyspark/departments&q

浏览 4提问于2015-12-28得票数 1

回答已采纳

1回答

PySpark :将字典python输出转换为RDD /或其他可保存(HDFS)格式

、、、、

我是Spark / Pyspark / HDFS的新手，我正在尝试用以下代码直接从HDFS加载一个.json文件：dictionary_output.saveAsTextFile('/path/') 不适用于字典。所以我

浏览 2提问于2017-05-16得票数 1

1回答

从文本文件输出中删除u和方括号

、

我需要将spark程序中的值以以下格式输出到文本文件中：但是，我目前的输出是：有没有办法让我重新格式化输出，所以当它被写入文本文件时，它是否是第一种格式。下面是我的代码：import resc.setLogLevel(fields[2]) int(fields[3

浏览 1提问于2021-12-07得票数 0

1回答

处理内部的数据，或将其保存到Dataframe或外部文件中

、、、

我正在使用HashingTF和IDF计算TF和国防军，并且使用以下代码：from pyspark.mllib.feature importHashingTFdocuments = sc.textFile("random.txt").map(lambda

浏览 0提问于2016-02-23得票数 0

回答已采纳

1回答

对文本文件中的值集合进行排序，并将排序后的值保存回使用pyspark的文本文件。

、、、

我正在尝试用以下格式对文本文件进行排序(input.txt)：a2 pqdistFile = sc.textFile(input.txt)words.saveAsTextFile("output")产出/部分-00000 [u'a2

浏览 2提问于2016-03-16得票数 1

回答已采纳

1回答

Spark-submit with Stocator失败，类com.ibm.stocator.fs.ObjectStoreFileSystem未找到错误

、、、、

我正在尝试通过拉取存储在COS中的文本文件，在Kubernetes集群上运行spark-submit wordcount Python。对于配置，我遵循Stocator README.md .python/wordcount.py", line 40, in <module> File "/opt/spark/python/lib/pyspark.zip/pyspark&#x

浏览 23提问于2021-01-12得票数 0

回答已采纳

1回答

从takeOrdered返回一个RDD，而不是一个列表

、、

一个非常常见的操作是获取文件的一个小的ish子集并导出它以供检查： .takeOrdered(100) 我的问题是，takeOrdered正在返回一个列表，而不是RDD，因此saveAsTextFile无法工作AttributeErro

浏览 3提问于2015-09-01得票数 4

回答已采纳

1回答

Spark Python map函数:编码utf-8时出错

、、、、

我的文本文件是使用UTF-8的越南人的母语。在我使用map函数之后，输出似乎不符合格式。我已经将代码分离并一步一步输出。我注意到map：(word，1)之后的编码错误。下面是我的源代码。# -*- coding: utf8 -*-import os, sys import("local"

浏览 5提问于2016-08-02得票数 0

回答已采纳

3回答

将来自成对RDD的文件保存在HDFS中

、、、

下面是我用HDFS编写的python脚本。RDD是一对RDD.The脚本，但是它可以在HDFS.Is中创建一个条目，因为它可以删除元组，而只在HDFS中创建逗号分隔的条目。import sys print 'Insufficient arguments'sys.exit() initialrdd1 = sc.textFile(sys.ar

浏览 0提问于2016-09-28得票数 0

1回答

PySpark saveAsTextFile编写的内容与python编写的内容不同。

、

我正在使用pyspark编写二进制文件，但其内容与编写python操作的内容不同。电火花saveAsTextFile： .map(lambda x:��;^G��^@}d^E�E�5#��>rdd = sc.textFile(gidgid_output_dir+"/part-

浏览 0提问于2019-04-08得票数 0

2回答

将列表转换为RDD

、、、

此代码生成一个错误：AttributeError：'list‘对象没有属性'saveAsTextFile'rdd = file.map(lambda line: (line.split(',')[0],line.split(',')[4])).coll

浏览 0提问于2018-04-17得票数 0

回答已采纳

1回答

将一个简单的字符串作为文本文件存储在蔚蓝突触中(到数据湖gen2)

、、、

我试图在datalakeGen2中将一个简单的字符串存储为文本文件，编写在Synapse记事本上的python代码。但它似乎并不是直接的。我试图将文本转换为rdd，然后存储：from pyspark import SparkContext rdd_text = sc.parallelize(list(str)).co

浏览 2提问于2021-06-29得票数 0

回答已采纳

4回答

将多个项保存到HDFS中(spark、python、py行之有效、jupyter)

、、、

我能够像这样轻松地从HDFS加载文件：我能写出这样的输出：list = ['text1.txt', 'text2.txt', 'text3.txt', 'text4.txt'] text_

浏览 5提问于2017-05-11得票数 1

2回答

如何更改pysark中DataFrame的hdfs块大小

、、、

这似乎与 ####################from pyspark.sq

浏览 0提问于2018-03-14得票数 0

2回答

由火花一个接一个地处理几个文件

、

我需要用Apache实现一个工作流的帮助。我的任务在下一个： var source = sc.textFile("/source/data*.gz");JavaSparkContext sc = new JavaSp

浏览 3提问于2016-03-12得票数 4

1回答

Python按键平均元组值

、、

我试着逐段找出单词的平均长度。数据是从文本文件中提取的，格式为1_…其中每一行都有一个段落号。到目前为止这是我的代码：sc = SparkContext('local', 'longest')lines = text.map(lambda line: (line.split(

浏览 1提问于2020-08-19得票数 0

回答已采纳

1回答

PySpark，错误调用saveAsTextFile

、、

这就是我想要做的：l = l.map(lambda x: map(int, x))output = lc.map(lambda x: str(x[0]) + ";" + str(x[1]) + ";" + str(cosineSim(x[0], x[1])))` 我

浏览 5提问于2015-02-13得票数 0

2回答

如何将RDD保存到HDFS中并在以后将其读回？

、、、、

我有一个RDD，它的元素类型是(Long，String)。出于某些原因，我想将整个RDD保存到HDFS中，然后在Spark程序中读回该RDD。这样做有可能吗？如果是这样，又是如何做到的呢？

浏览 0提问于2016-10-16得票数 15

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将列表保存到spark中的文件？

将RDD保存为顺序文件

PySpark :将字典python输出转换为RDD /或其他可保存(HDFS)格式

从文本文件输出中删除u和方括号

处理内部的数据，或将其保存到Dataframe或外部文件中

对文本文件中的值集合进行排序，并将排序后的值保存回使用pyspark的文本文件。

Spark-submit with Stocator失败，类com.ibm.stocator.fs.ObjectStoreFileSystem未找到错误

从takeOrdered返回一个RDD，而不是一个列表

Spark Python map函数:编码utf-8时出错

将来自成对RDD的文件保存在HDFS中

PySpark saveAsTextFile编写的内容与python编写的内容不同。

将列表转换为RDD

将一个简单的字符串作为文本文件存储在蔚蓝突触中(到数据湖gen2)

将多个项保存到HDFS中(spark、python、py行之有效、jupyter)

如何更改pysark中DataFrame的hdfs块大小

由火花一个接一个地处理几个文件

Python按键平均元组值

PySpark，错误调用saveAsTextFile

如何将RDD保存到HDFS中并在以后将其读回？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐