rdd写入文件python_Spark RDD写入Cassandra_spark rdd写入mysql - 腾讯云开发者社区

、、

我正在尝试使用python在spark中解决单词计数问题。但是，当我尝试使用.saveAsTextFile命令将输出的RDD保存到文本文件中时，我会遇到这个问题。这是我的代码。请帮帮我。我被卡住了。

浏览 0提问于2015-12-04得票数 6

回答已采纳

2回答

如何将printSchema的结果保存到PySpark中的文件

、、

现在，我需要将它保存在一个变量或文本文件中。我试过下面的方法，但它们都没有用。

浏览 1提问于2018-06-12得票数 7

回答已采纳

1回答

在集群中的执行器上运行python脚本[Scala/Spark]

、、、、

我可以在python脚本中访问星火会话吗？或者我可以在python脚本中创建一个文件并将其保存到hdfs文件系统中？实际上，这正是我想要做的--我想在python脚本中创建csv文件，并将它们保存到hdfs中。例如: pip安装熊猫#!', 'w') as f: f.writ

浏览 1提问于2022-02-22得票数 1

1回答

Python Spark:将RDD的某些列写入文本文件

、、、、

我想要将RDD的某些列写入文本文件。目前，我正在使用熊猫来做这件事。pandas = df_2016.select('id', 'source', 'date', 'title', 'abstract', 'content').toPandas() 然后将该列转换为字符串写入文本文件title_string = ''.join(df_2016_pandas.title

浏览 12提问于2017-06-23得票数 0

4回答

如何在Spark python中将生成的RDD写入csv文件

、、、、

我有一个最终的RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions)。我想要创建一个CSV文件，其中一列用于labels (上面输出中的元组的第一部分)，另一列用于predictions(元组输出的第二部分)。但我不知道如何使用Python在Spark中写入CSV文件。如何使用上述输出创建CSV文件？

浏览 194提问于2015-08-09得票数 26

回答已采纳

3回答

在spark本地模式下从内部worker写入文件不能写入吗？

、

为此，我需要从工作节点内部显式地写入一些数据，我认为我可以使用hadoop rest api在集群模式下运行时将文件写入hdfs。但是，当在本地模式下运行代码时，我如何从worker任务内部写入文件？= sc.textFile("file://path to file") rdd.map(lambda x:x.split("\t")[0],1).reduce(func_to_reduce);//how ca

浏览 4提问于2017-03-06得票数 3

回答已采纳

2回答

将RDD保存为顺序文件

、、、

我能够运行这个脚本来以文本格式保存文件，但是当我试图运行saveAsSequenceFile时，它就会出错。如果有人知道如何将RDD保存为序列文件，请让我知道这个过程。") 错误:调用z:org.apache.spark.api.python.PythonRDD.saveAsSequenceFile.时发生错误：org

浏览 4提问于2015-12-28得票数 1

回答已采纳

1回答

为什么序列化持久化RDD占用的内存少于反序列化持久化RDD？

、

我读到，当RDD以某种形式的序列化(无论是默认的Java序列化还是类似于Kryo序列化)的方式持久化在内存中时，它占用内存中的空间更少。

浏览 3提问于2015-08-13得票数 5

回答已采纳

2回答

pyspark.sql到JSON

、

例如，如果我运行：我看到它返回一个数据帧，我可以在上面调用'toJSON‘来获取一个RDD。但我找不到一种好的方法将其转换为json文档。

浏览 19提问于2019-08-23得票数 0

回答已采纳

1回答

使用map的UDF或RDD处理？

、、、、

使用map的UDF或RDD处理？我使用spark Structured streaming来使用数据，对于每个微批量，我将DF转换为RDD，并执行一些python graphkit操作，然后再次将RDD转换为DF以写入Kafka流。

浏览 23提问于2020-06-26得票数 1

2回答

使用Apache Spark中的Python在第9位置获取字符串

、、、

因为行是一个RDD，所以它给出了一个语法错误，说明没有__getitem__。

浏览 6提问于2015-09-24得票数 0

回答已采纳

1回答

在星火中按RDD执行组，并将每个组写成单独的Parquet文件

、、、

我记忆中有一个RDD。我想使用一些任意函数对RDD进行分组，然后将每个单独的组写成一个单独的Parquet文件。Parquet文件。我可以看到，DataFrame API支持按以下方式编写Parquet文件(例如，如果由JSON组成)：final SQLContext(rdd);这意味着整个DataFrame被

浏览 2提问于2016-02-16得票数 2

回答已采纳

3回答

如何配置pyspark默认写入HDFS？

、、

默认情况下，我正在尝试将spark写入HDFS。目前，当我在RDD上调用saveAsTextFile时，它会写入我的本地文件系统。具体地说，如果我这样做：rdd.saveAsTextFile("/tmp/sample") 它将写入我的本地文件系统中一个名为/tmp/sample的文件。但是，如果我这样做

浏览 0提问于2017-11-28得票数 1

2回答

如果文件已经存在于pyspark中，如何覆盖rdd* saveAsPickleFile(路径)？*

、、、

如何在节省时间的同时覆盖RDD输出对象和任何现有路径。现在，我再次从输入文件中删除一行，并将RDD保存在相同的位置，这表明文件已经存在。rdd.coalesce(1).saveAsPickleFile("/home/administrator/work/foobar_seq1") 如果我在RDD

浏览 0提问于2018-03-28得票数 3

1回答

RDD在RDD中的内存使用

、、、

让我们从冲积内存中创建一个RDD。rdd2 = rdd1.map(...)第二个问题的原因是我需要加入两个大的RDD，它们都是关于冲积

浏览 7提问于2016-06-09得票数 0

回答已采纳

3回答

如何用模式推理将RDD[String]写到拼图文件中？

、、、

我的Spark Streaming作业需要处理RDD[String]，其中字符串对应于csv文件的一行。我事先不知道模式，所以需要从RDD推断模式，然后将其内容写入parquet文件。如果我从磁盘中读取一个csv文件，我只需使用模式推断将所有内容加载到DataFrame中，并立即将其写入parquet。不过，在我的场景中，我的起点是一个RDD[String]，它是流的结果。

浏览 5提问于2017-06-14得票数 2

1回答

为什么Spark总是将相同数量的文件写入HDFS？

、、

应用程序从Kafka读取数据并将数据写入HDFS。在将数据写入HDFS之前，我执行了partitionBy，因此数据是分区写入的。每个分区在写入时都会得到3个文件。我的预期是，由coalesce命令设置的分区数量将设置HDFS中输出目录中的文件数量，然而，尽管由coalesce命令设置了分区数量，文件数量始终是3。我尝试使用3个执行器和6个执行器运行，但每个分区中的文件数量仍然是3个。rdd.isEmpty()) {

浏览 0提问于2018-09-18得票数 1

1回答

Spark on YARN - saveAsTextFile()方法创建大量空零件文件

、、

我使用saveAsTextFile()方法将RDD存储为文本文件。有没有办法避免这种情况？

浏览 0提问于2016-02-08得票数 2

2回答

星星之火:将RDD中的每条记录写入HDFS目录中的各个文件

、、、、

我需要将RDD中的每个记录写入HDFS中的单个文件。stream.foreachRDD{ rdd => rdd.foreach{ val value = msg._2 printlnjava.util.UUID.randomUUID.toStrin

浏览 2提问于2017-02-14得票数 4

2回答

为pyspark RDD生成单个json文件

、、

我正在构建一个Python脚本，在其中我需要从json RDD生成一个json文件。下面是保存json文件的代码片段。json.loads(x))但我需要将json数据写入单个文件

浏览 0提问于2015-09-02得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark using Python :将RDD输出保存为文本文件

如何将printSchema的结果保存到PySpark中的文件

在集群中的执行器上运行python脚本[Scala/Spark]

Python Spark:将RDD的某些列写入文本文件

如何在Spark python中将生成的RDD写入csv文件

在spark本地模式下从内部worker写入文件不能写入吗？

将RDD保存为顺序文件

为什么序列化持久化RDD占用的内存少于反序列化持久化RDD？

pyspark.sql到JSON

使用map的UDF或RDD处理？

使用Apache Spark中的Python在第9位置获取字符串

在星火中按RDD执行组，并将每个组写成单独的Parquet文件

如何配置pyspark默认写入HDFS？

如果文件已经存在于pyspark中，如何覆盖rdd* saveAsPickleFile(路径)？*

RDD在RDD中的内存使用

如何用模式推理将RDD[String]写到拼图文件中？

为什么Spark总是将相同数量的文件写入HDFS？

Spark on YARN - saveAsTextFile()方法创建大量空零件文件

星星之火:将RDD中的每条记录写入HDFS目录中的各个文件

为pyspark RDD生成单个json文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐