spark 操作本地大文件系统_spark 大文件系统_spark 读取大文件系统 - 腾讯云开发者社区

、、

我在我的系统中以独立模式运行spark (希望在将来进行分发)，以分析一个大于5 GB的非常大的文件。首先，我需要将这个文件从FTP复制到我的本地e.g c:\spark\analysis\bigfile.txt，然后我就可以加载spark文件进行分析了。有没有可能在spark中实现？我应该使用像kafka这样的流媒体库吗？同样的方式，我需要在完成spark分析后向ftp服务器写入一个大文件。

浏览 3提问于2017-12-24得票数 0

2回答

使用RStudio中的sparklyr，我是否可以将本地csv文件上传到spark集群

、、、

我成功地在Rstudio中创建了一个spark_context (使用sparklyr)来连接到我们本地的Spark集群。使用copy_to我可以将数据帧从R上传到Spark，但我正在尝试使用spark_read_csv将本地存储的CSV文件直接上传到Spark集群，而无需先将其导入R环境(这是一个5 5GB的大文件)。如何将本地文件直接上传到spark，而无需先将其加载到R？任何建议都很感谢。

浏览 21提问于2017-01-25得票数 1

回答已采纳

1回答

本地文件和集群模式

、

我刚刚开始使用Apache Spark。我正在使用集群模式，并且我想处理一个大文件。我使用来自SparkContext的textFile方法，它将读取所有节点上可用的本地文件系统。

浏览 3提问于2016-05-31得票数 1

1回答

在AWS中重命名和移动星火输出文件需要非常长的时间

、、、

我有一个火花作业，我有一个巨大的文件输出300 gb到S3。我的要求是重命名所有的部分文件，然后我们必须移动到最后的文件夹。因此，我想出了一个计划，从S3读取回火花输出文件，然后重命名它，然后在S3文件夹中再写一次。这对我来说太令人沮丧了。我就是这么做的。 val file = fs.globStatus(new Pat

浏览 2提问于2018-04-11得票数 0

1回答

什么是HDFS数据局部性？

、

当我们谈论数据局部性时，不管是MR还是Spark。我有点困惑，数据局部性是指直接从操作系统(使用本地文件读取协议)从本地读取数据，还是仅从基于HDFS协议的本地访问数据？

浏览 1提问于2018-02-11得票数 1

1回答

通过operatorhub部署的spark-gcp上的Webhooks

、、

我在k8s上部署了gcp-spark操作符。它工作得非常好。能够毫无问题地运行scala和python作业。有一个带有webhooks yaml 的spark-operator，但名称与通过operator hub进行的部署不同。kubectl apply -f spark-operator-with-webhook.yaml War

浏览 3提问于2020-11-20得票数 0

1回答

如何在文件处于服务器上时在spark中提供文本文件位置

、

我想用火花弹运行命令-abc是文件的位置。我试着把一个文本文件放在本地C驱动器中，并提供了读取的位置，它也不起作用。对于所有的文件位置，我都得到了类似的错误。错误： scala> val rddFromFile = spark.sparkContext.textFile("C:/Users/eee/Spark test/Testsp

浏览 5提问于2021-12-17得票数 1

1回答

Apache Spark Streaming未读取目录

、、、

我正在从事Spark Streaming的工作，我想设置一个本地目录来将数据流式传输到我的spark应用程序中，这样目录中的每个新文本文件都将被流式传输到我的应用程序中。我尝试使用StreamingContext的textFileStream方法，但我没有从我移动到指定的本地目录的文件中获得任何数据。你能帮我找出为什么会发生这种情况吗？= 5: print 'Usage: SPARK_HOME/bin/spark-submit CoinpipeVec

浏览 3提问于2015-02-26得票数 2

1回答

我可以通过齐柏林飞艇将文件从本地驱动器导入到VMWare HDP2.5沙盒中使用吗？

、、、

我想在我的Spark程序中使用本地文本文件，该程序是在VMWare的HDP2.5Sandbox中运行的。2)可以使用Zeppelin导入吗？如果是，那么如何获取在Spark中使用它的绝对路径(位置)？ 3)还有其他方法吗？如果是，是什么以及如何实现？

浏览 0提问于2016-11-16得票数 0

1回答

SQL dataframe first and last不返回"real“first和last值

、、、

我尝试在一个大文件上使用Apache Spark SQL dataframe的聚合函数"first“和"last”，其中有一个spark master和2个worker。当我执行"first“和" last”操作时，我希望返回文件中的最后一列；但看起来Spark返回的是worker分区中的"first“或"last”。

浏览 0提问于2016-01-23得票数 1

2回答

错误:路径在使用hadoop的spark提交中不存在

、、、、

我们使用命令/home/ubuntu/spark/bin/spark-submit --master yarn --deploy-mode cluster --class "SimpleApp" /home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar来运

浏览 82提问于2018-06-07得票数 1

回答已采纳

1回答

Spark:本地文件系统作为spark应用程序的默认文件系统

我写了一个spark应用程序，我想在其中保存数据帧到本地，filesystem.Spark需要在本地文件系统中写一个文件。然后我使用java.io.FileReader和FileWriter读取spark写的本地文件，做一些修改，然后把它写回本地文件系统。所以我需要使用的文件路径是常量。name.txt，这将同时用于dataframa.save和java fileReader和fileWriterdatafra

浏览 2提问于2016-02-11得票数 1

2回答

使用sc.textfile时读取文本文件的是驱动程序还是工作人员？

、、、、

我想知道sc.textfile是如何在星火中使用的。我的猜测是，驱动程序一次读取文件的一部分，并将读取的文本分发给工作人员，以进行处理。还是工人在没有司机参与的情况下直接从文件中阅读文本？

浏览 3提问于2017-06-07得票数 5

回答已采纳

1回答

将大文件上传到SharePoint 2016会导致整个服务器挂起

、

我们在将大文件(> 6 MB)上传到本地SharePoint 2016时开始遇到问题。我们无法从服务器捕获任何日志，因为操作系统立即冻结。操作系统为Windows Server 2012，SharePoint作为单服务器部署安装。上传小文件(小于6MB)工作正常，没有任何问题。

浏览 8提问于2020-01-21得票数 0

1回答

使用AWS Hadoop集群设置提交Spark作业

、、、

我在AWS EC2中有一个hadoop集群设置，但我的开发设置(Spark)是在本地windows系统中。当我尝试连接AWS Hive thrift服务器时，我可以连接，但当我尝试从本地spark配置提交作业时，它显示一些连接被拒绝错误。1)当我从本地的Spark向HIVE thrift提交作业时，如果该作业与任何MR作业相关联，ASW Hive setup将使用自己的身份提交该作业NN，或者它将继续使用我的spark setup身份。2)在我的配置中

浏览 1提问于2017-08-28得票数 0

1回答

如何使用new File()在Spark (使用scala)中读取文件？

、

我是spark的乞求者，我有个问题要问你。我想读一份文件。我看了一些教程，他们说要这样做： val rib = spark.read.format("csv").option("header", "true").load("<a path to the file

浏览 44提问于2019-01-17得票数 0

回答已采纳

1回答

火花放电模型在保存在火星雨中后，对os来说是不可见的。

、、、

或者可能是火花配置问题，我是在Ambari集群中这样做的，代码在我的本地机器上工作，但不在那里，所以我不知道问题是什么。

浏览 0提问于2018-10-19得票数 2

回答已采纳

1回答

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

、、

通常情况下，如果我将Scala用于Spark作业，我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它，但有时对于非常轻量级的作业，我可能在笔记本中使用未编译的Scala代码，或者使用spark-shell REPL，在这里我假设SparkContext已经可用。

浏览 2提问于2020-03-08得票数 5

回答已采纳

1回答