腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在火花分析之前从FTP读取大文本文件
、
、
我在我的
系统
中以独立模式运行
spark
(希望在将来进行分发),以分析一个大于5 GB的非常大的文件。首先,我需要将这个文件从FTP复制到我的
本地
e.g c:\
spark
\analysis\bigfile.txt,然后我就可以加载
spark
文件进行分析了。有没有可能在
spark
中实现?我应该使用像kafka这样的流媒体库吗? 同样的方式,我需要在完成
spark
分析后向ftp服务器写入一个
大文件
。
浏览 3
提问于2017-12-24
得票数 0
2
回答
使用RStudio中的sparklyr,我是否可以将
本地
csv文件上传到
spark
集群
、
、
、
我成功地在Rstudio中创建了一个
spark
_context (使用sparklyr)来连接到我们
本地
的
Spark
集群。使用copy_to我可以将数据帧从R上传到
Spark
,但我正在尝试使用
spark
_read_csv将
本地
存储的CSV文件直接上传到
Spark
集群,而无需先将其导入R环境(这是一个5 5GB的
大文件
)。如何将
本地
文件直接上传到
spark
,而无需先将其加载到R? 任何建议都很感谢。
浏览 21
提问于2017-01-25
得票数 1
回答已采纳
1
回答
本地
文件和集群模式
、
我刚刚开始使用Apache
Spark
。我正在使用集群模式,并且我想处理一个
大文件
。我使用来自SparkContext的textFile方法,它将读取所有节点上可用的
本地
文件
系统
。
浏览 3
提问于2016-05-31
得票数 1
1
回答
在AWS中重命名和移动星火输出文件需要非常长的时间
、
、
、
我有一个火花作业,我有一个巨大的文件输出300 gb到S3。我的要求是重命名所有的部分文件,然后我们必须移动到最后的文件夹。因此,我想出了一个计划,从S3读取回火花输出文件,然后重命名它,然后在S3文件夹中再写一次。这对我来说太令人沮丧了。我就是这么做的。 val file = fs.globStatus(new Pat
浏览 2
提问于2018-04-11
得票数 0
1
回答
什么是HDFS数据局部性?
、
当我们谈论数据局部性时,不管是MR还是
Spark
。我有点困惑,数据局部性是指直接从
操作
系统
(使用
本地
文件读取协议)从
本地
读取数据,还是仅从基于HDFS协议的
本地
访问数据?
浏览 1
提问于2018-02-11
得票数 1
1
回答
通过operatorhub部署的
spark
-gcp上的Webhooks
、
、
我在k8s上部署了gcp-
spark
操作
符。它工作得非常好。能够毫无问题地运行scala和python作业。有一个带有webhooks yaml 的
spark
-operator,但名称与通过operator hub进行的部署不同。kubectl apply -f
spark
-operator-with-webhook.yaml War
浏览 3
提问于2020-11-20
得票数 0
1
回答
如何在文件处于服务器上时在
spark
中提供文本文件位置
、
我想用火花弹运行命令-abc是文件的位置。我试着把一个文本文件放在
本地
C驱动器中,并提供了读取的位置,它也不起作用。对于所有的文件位置,我都得到了类似的错误。错误: scala> val rddFromFile =
spark
.sparkContext.textFile("C:/Users/eee/
Spark
test/Testsp
浏览 5
提问于2021-12-17
得票数 1
1
回答
Apache
Spark
Streaming未读取目录
、
、
、
我正在从事
Spark
Streaming的工作,我想设置一个
本地
目录来将数据流式传输到我的
spark
应用程序中,这样目录中的每个新文本文件都将被流式传输到我的应用程序中。我尝试使用StreamingContext的textFileStream方法,但我没有从我移动到指定的
本地
目录的文件中获得任何数据。你能帮我找出为什么会发生这种情况吗?= 5: print 'Usage:
SPARK
_HOME/bin/
spark
-submit CoinpipeVec
浏览 3
提问于2015-02-26
得票数 2
1
回答
我可以通过齐柏林飞艇将文件从
本地
驱动器导入到VMWare HDP2.5沙盒中使用吗?
、
、
、
我想在我的
Spark
程序中使用
本地
文本文件,该程序是在VMWare的HDP2.5Sandbox中运行的。2)可以使用Zeppelin导入吗?如果是,那么如何获取在
Spark
中使用它的绝对路径(位置)? 3)还有其他方法吗?如果是,是什么以及如何实现?
浏览 0
提问于2016-11-16
得票数 0
1
回答
SQL dataframe first and last不返回"real“first和last值
、
、
、
我尝试在一个
大文件
上使用Apache
Spark
SQL dataframe的聚合函数"first“和"last”,其中有一个
spark
master和2个worker。当我执行"first“和" last”
操作
时,我希望返回文件中的最后一列;但看起来
Spark
返回的是worker分区中的"first“或"last”。
浏览 0
提问于2016-01-23
得票数 1
2
回答
错误:路径在使用hadoop的
spark
提交中不存在
、
、
、
、
我们使用命令/home/ubuntu/
spark
/bin/
spark
-submit --master yarn --deploy-mode cluster --class "SimpleApp" /home/ubuntu/
spark
/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar来运
浏览 82
提问于2018-06-07
得票数 1
回答已采纳
1
回答
Spark
:
本地
文件
系统
作为
spark
应用程序的默认文件
系统
我写了一个
spark
应用程序,我想在其中保存数据帧到
本地
,filesystem.
Spark
需要在
本地
文件
系统
中写一个文件。然后我使用java.io.FileReader和FileWriter读取
spark
写的
本地
文件,做一些修改,然后把它写回
本地
文件
系统
。所以我需要使用的文件路径是常量。name.txt,这将同时用于dataframa.save和java fileReader和fileWriterdatafra
浏览 2
提问于2016-02-11
得票数 1
2
回答
使用sc.textfile时读取文本文件的是驱动程序还是工作人员?
、
、
、
、
我想知道sc.textfile是如何在星火中使用的。我的猜测是,驱动程序一次读取文件的一部分,并将读取的文本分发给工作人员,以进行处理。还是工人在没有司机参与的情况下直接从文件中阅读文本?
浏览 3
提问于2017-06-07
得票数 5
回答已采纳
1
回答
将
大文件
上传到SharePoint 2016会导致整个服务器挂起
、
我们在将
大文件
(> 6 MB)上传到
本地
SharePoint 2016时开始遇到问题。我们无法从服务器捕获任何日志,因为
操作
系统
立即冻结。
操作
系统
为Windows Server 2012,SharePoint作为单服务器部署安装。 上传小文件(小于6MB)工作正常,没有任何问题。
浏览 8
提问于2020-01-21
得票数 0
1
回答
使用AWS Hadoop集群设置提交
Spark
作业
、
、
、
我在AWS EC2中有一个hadoop集群设置,但我的开发设置(
Spark
)是在
本地
windows
系统
中。当我尝试连接AWS Hive thrift服务器时,我可以连接,但当我尝试从
本地
spark
配置提交作业时,它显示一些连接被拒绝错误。1)当我从
本地
的
Spark
向HIVE thrift提交作业时,如果该作业与任何MR作业相关联,ASW Hive setup将使用自己的身份提交该作业NN,或者它将继续使用我的
spark
setup身份。2)在我的配置中
浏览 1
提问于2017-08-28
得票数 0
1
回答
如何使用new File()在
Spark
(使用scala)中读取文件?
、
我是
spark
的乞求者,我有个问题要问你。我想读一份文件。我看了一些教程,他们说要这样做: val rib =
spark
.read.format("csv").option("header", "true").load("<a path to the file
浏览 44
提问于2019-01-17
得票数 0
回答已采纳
1
回答
火花放电模型在保存在火星雨中后,对os来说是不可见的。
、
、
、
或者可能是火花配置问题,我是在Ambari集群中这样做的,代码在我的
本地
机器上工作,但不在那里,所以我不知道问题是什么。
浏览 0
提问于2018-10-19
得票数 2
回答已采纳
1
回答
如何以Dataproc作业的形式运行未编译的Scala/shell代码?
、
、
通常情况下,如果我将Scala用于
Spark
作业,我将编译一个jarfile并使用gcloud dataproc jobs submit
spark
提交它,但有时对于非常轻量级的作业,我可能在笔记本中使用未编译的Scala代码,或者使用
spark
-shell REPL,在这里我假设SparkContext已经可用。
浏览 2
提问于2020-03-08
得票数 5
回答已采纳
1
回答
为什么当洗牌发生时,火花会占用太多的内存?
、
、
我发现当星火过程中发生洗牌时,内存使用太多了。我认为主要原因是洗牌,因为rdd.map没有洗牌,但rdd.groupBy有洗牌。 在这种情
浏览 6
提问于2017-01-06
得票数 0
1
回答
如何使用Scala在
Spark
中加载MultipartFile
、
我的问题是如何在
spark
中加载多部分文件。
浏览 2
提问于2016-10-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
简化TensorFlow和Spark互操作性的问题:LinkedIn开源Spark-TFRecord
使用Spark将本地文件读取并封装为DataFrame的完整指南
前端本地文件操作与上传
Spark如何读取一些大数据集到本地机器上
深入浅出Spark(三):Spark调度系统之“权力的游戏”
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券