如何使用spark在HDFS中保存数据？

、、

我们目前使用Redshift作为数据仓库，我们对此非常满意。然而，我们现在需要对我们仓库中的数据进行机器学习。考虑到所涉及的数据量，理想情况下，我希望在与数据相同的位置运行计算，而不是在数据周围移动，但这在Redshift看来是不可能的。我目前正在考虑将数据转移到EMR，并使用Apache机器学习库(或者H20、Mahout或其他什么)来处理它。所以我的问题是：如果没有，我应该如何

浏览 1提问于2014-11-12得票数 3

1回答

星星之火:如何将字节字符串写到hdfs* hadoop中，以便进行火花-xml转换？*

、、

在python中，字节字符串可以简单地保存到单个xml文件中： f.write(b'<Value>1</Value>') 问题:如何将字符串

浏览 0提问于2021-01-14得票数 2

回答已采纳

1回答

如何将Spark集群上用Pandas编写的文件移动到HDFS？

、、

我正在使用集群模式运行一个星火作业，并使用Pandas编写一些文件，我认为它是在临时目录中编写的，现在我想移动这些文件或在HDFS中编写这些文件。

浏览 7提问于2021-02-16得票数 0

回答已采纳

1回答

使用spark和HDFS作为文件存储系统，使用YARN作为资源管理器的优势是什么？

、、

我正在尝试理解spark是否是分析BigData的普通MapReduce方法的替代方法。既然spark在使用HDFS作为spark的存储系统时，将对数据的操作保存在内存中，那么它是否利用了HDFS的分布式存储？例如，假设我在HDFS中存储了100 it的CSV文件，现在我想对其进行分析。如果我将其从HDFS加载到spark，它将

浏览 17提问于2019-01-27得票数 0

回答已采纳

1回答

为什么将RDD持久化到磁盘并不能提高性能？

我有下面的DAG 磁盘上RDD的大小为100 on 。如何解决这一问题？

浏览 4提问于2017-03-09得票数 0

回答已采纳

1回答

使用spark* streaming将每个Kafka消息保存在hdfs中*

、、、

我正在使用spark streaming进行分析。经过分析，我必须将kafka消息保存在hdfs中。每条kafka消息都是一个xml文件。我不能使用rdd.saveAsTextFile，因为它会保存整个rdd。rdd的每个元素都是kafka消息( xml文件)。如何使用spark在hdfs中保存每个rdd元素(文件)。

浏览 0提问于2018-02-16得票数 0

1回答

csv中用于HDFS的火花蒙戈连接器

、、

当我选择字段并保存结果时，我使用Spark连接器(R加长)查询集合，如下所示： saveDF(t2, "hdfs://server:8020/path/res") 它将结果保存在带有jsonContent的拼花文件上，但我希望在hdfs中使用简单的纯文本。

浏览 3提问于2016-08-24得票数 0

1回答

我有下面的，可以在官方的apache/spark上找到。我花了很多时间了解如何在Hortonworks Hadoop Sandbox中运行这个示例，但没有成功。下一步是准备在我的Hadoop中运行的代码--问题从这里开始，我可能设置了一些错误。("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

浏览 2提问于2017-12-18得票数 1

回答已采纳

2回答

将随机文件写入HDFS* - PySpark*

、

我还没有看到任何如何做到这一点的例子。我在Python3环境中使用PySpark 2.0。我有随机数据，二进制数据，.jpg数据，随机字符串。我只需要将数据放回底层存储。

浏览 3提问于2017-04-20得票数 2

2回答

在火花流上下文中将RDD写入HDFS

、、、、

我有一个spark 1.2.0的spark流媒体环境，我从本地文件夹中检索数据，每次我发现文件夹中添加了一个新文件时，我都会执行一些转换。，并将它们保存在HDFS上。因为我真的需要使用数组来操作数据，所以不可能用DStream.saveAsTextFiles("...")将数据保存在HDFS上(这将很好地工作)，我必须保存RDD，但是有了这个p

浏览 1提问于2015-07-02得票数 7

回答已采纳

1回答

、、、

我想使用Spark Streaming从Kafka中检索数据。现在，我想将我的数据保存在远程HDFS中。我知道我必须使用函数saveAsText。但是，我并不确切地知道如何指定路径。myDStream.foreachRDD(frm->{ frm.saveAsTextFile("hdfs://ip_addr:9000//home/

浏览 7提问于2017-01-31得票数 3

回答已采纳

1回答

如何根据HDFS中的数据创建外部星表

、

我已经将HDFS中的一个拼花表加载到一个DataFrame中：现在我想将这个表公开给Spark，但是这必须是一个持之以恒的表，因为我想通过JDBC连接或其他Sessions来访问它。快速的方法可以是调用df.write.saveAsTable方法，但在这种情况下，它将实现DataFrame的内容，并创建一个

浏览 1提问于2018-04-26得票数 5

2回答

增加Hadoop-MapReduce集群中此数据存储库的大小

、、、

对于使用Hadoop-MapReduce集群的视频仓库，每天接收大约30000 in的数据，如何在集群中满足磁盘存储需求？在这种情况下，任何帮助都将不胜感激。你好，Behrouz

浏览 0提问于2017-07-09得票数 0

1回答

如何在没有Spark的情况下直接编辑HBase HFile

、

我需要批量编辑HBase数据，为每一行编辑特定单元格的内容。通过HBase PUT/GET API不是一种选择，因为这会非常慢。我想设置一个Spark任务，它将HBase HFile加载到正确定义的DFs中，让我编辑特定列中的数据，然后将数据保存回HDFS，保持HFile格式。我找到了关于如何将HFile从Spark批量写入HDFS的几个指南，但是，我不确定如何从

浏览 0提问于2019-01-24得票数 1

回答已采纳

1回答

如何在spark中缓存随机森林模型

、、

我的平台是Spark2.1.0，使用python语言。但是我不知道如何缓存模型，因为模型不是RDD或Dataframe。谢谢!

浏览 1提问于2018-05-27得票数 1

回答已采纳

1回答

spark-ml朴素贝叶斯保存到hdfs

、、、

我知道通过spark-mllib，我们可以通过save()方法将朴素贝叶斯模型保存到hdfs中。但是我们尝试使用spark-ml朴素贝叶斯来保存到hdfs中，然后它给出了错误。错误的文件系统:hdfs://本地主机:8020/pa/model/nb，应为: file:/// 我使用的是spark-1.6

浏览 0提问于2016-06-21得票数 0

1回答

Ignite for spark如何处理重复删除？

、

我使用Ignite作为Spark的外部数据源，我需要一些提示来理解Ignite for Spark如何处理从缓存和文件加载的重复数据删除，最好告诉我哪个类文件用于此目的，谢谢。

浏览 15提问于2021-03-10得票数 0

1回答

如何共享全局spark会话？

实际上，我在一个项目中工作，其中包括一个由多个任务和单个任务组成的多个组件组成的工作流程。例如。在join中，我们需要4个组件。因此，流程类似于，使用spark submit为join创建一个spark会话，将输出保存在hdfs中，并关闭当前spark会话。对于排序，使用spark创建另一个会话，并通过join任务获取存储在hdfs中</

浏览 30提问于2019-07-19得票数 1

3回答

Spark、Hadoop和Cassandra之间的关系是什么

、、、

我的理解是Spark是Hadoop的替代品。但是，当尝试安装Spark时，安装页面要求安装现有的Hadoop。我找不到任何可以澄清这种关系的东西。其次，Spark显然与Cassandra和Hive有很好的连接性。两者都有sql风格的界面。然而，Spark有它自己的sql。为什么要使用Cassandra/Hive而不是Spark的原生sql？

浏览 2提问于2015-06-27得票数 38

1回答

使用HDFS实现节点本地数据局部化是否需要使用Spark和YARN？

、、

使用HDFS实现节点本地数据局部化是否需要使用Spark和YARN？如果我使用Spark独立集群管理器，并将我的数据分布在HDFS集群中，Spark如何知道数据位于节点本地？

浏览 1提问于2016-10-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

处理存储在红移中的数据

星星之火:如何将字节字符串写到hdfs* hadoop中，以便进行火花-xml转换？*

如何将Spark集群上用Pandas编写的文件移动到HDFS？

使用spark和HDFS作为文件存储系统，使用YARN作为资源管理器的优势是什么？

为什么将RDD持久化到磁盘并不能提高性能？

使用spark* streaming将每个Kafka消息保存在hdfs中*

csv中用于HDFS的火花蒙戈连接器

运行示例时出错

将随机文件写入HDFS* - PySpark*

在火花流上下文中将RDD写入HDFS