腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
处理存储
在
红移
中
的
数据
、
、
我们目前
使用
Redshift作为
数据
仓库,我们对此非常满意。然而,我们现在需要对我们仓库
中
的
数据
进行机器学习。考虑到所涉及的
数据
量,理想情况下,我希望
在
与
数据
相同的位置运行计算,而不是在
数据
周围移动,但这在Redshift看来是不可能的。我目前正在考虑将
数据
转移到EMR,并
使用
Apache机器学习库(或者H20、Mahout或其他什么)来处理它。所以我的问题是: 如果没有,我应该
如何
浏览 1
提问于2014-11-12
得票数 3
1
回答
星星之火:
如何
将字节字符串写到
hdfs
hadoop
中
,以便进行火花-xml转换?
、
、
在
python
中
,字节字符串可以简单地
保存
到单个xml文件
中
: f.write(b'<Value>1</Value>') 问题:
如何
将字符串
浏览 0
提问于2021-01-14
得票数 2
回答已采纳
1
回答
如何
将
Spark
集群上用Pandas编写的文件移动到
HDFS
?
、
、
我正在
使用
集群模式运行一个星火作业,并
使用
Pandas编写一些文件,我认为它是
在
临时目录
中
编写的,现在我想移动这些文件或在
HDFS
中
编写这些文件。
浏览 7
提问于2021-02-16
得票数 0
回答已采纳
1
回答
使用
spark
和
HDFS
作为文件存储系统,
使用
YARN作为资源管理器的优势是什么?
、
、
我正在尝试理解
spark
是否是分析BigData的普通MapReduce方法的替代方法。既然
spark
在
使用
HDFS
作为
spark
的存储系统时,将对
数据
的操作
保存
在内存
中
,那么它是否利用了
HDFS
的分布式存储?例如,假设我
在
HDFS
中
存储了100 it的CSV文件,现在我想对其进行分析。如果我将其从
HDFS
加载到
spark
,它将
浏览 17
提问于2019-01-27
得票数 0
回答已采纳
1
回答
为什么将RDD持久化到磁盘并不能提高性能?
我有下面的DAG 磁盘上RDD的大小为100 on 。
如何
解决这一问题?
浏览 4
提问于2017-03-09
得票数 0
回答已采纳
1
回答
使用
spark
streaming将每个Kafka消息
保存
在
hdfs
中
、
、
、
我正在
使用
spark
streaming进行分析。经过分析,我必须将kafka消息
保存
在
hdfs
中
。每条kafka消息都是一个xml文件。我不能
使用
rdd.saveAsTextFile,因为它会
保存
整个rdd。rdd的每个元素都是kafka消息( xml文件)。
如何
使用
spark
在
hdfs
中
保存
每个rdd元素(文件)。
浏览 0
提问于2018-02-16
得票数 0
1
回答
csv中用于
HDFS
的火花蒙戈连接器
、
、
当我选择字段并
保存
结果时,我
使用
Spark
连接器(R加长)查询集合,如下所示: saveDF(t2, "
hdfs
://server:8020/path/res") 它将结果
保存
在带有jsonContent的拼花文件上,但我希望
在
hdfs
中
使用
简单的纯文本。
浏览 3
提问于2016-08-24
得票数 0
1
回答
运行示例时出错
、
、
、
我有下面的,可以
在
官方的apache/
spark
上找到。我花了很多时间了解
如何
在Hortonworks Hadoop Sandbox
中
运行这个示例,但没有成功。下一步是准备
在
我的Hadoop
中
运行的代码--问题从这里开始,我可能设置了一些错误。("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")
浏览 2
提问于2017-12-18
得票数 1
回答已采纳
2
回答
将随机文件写入
HDFS
- PySpark
、
我还没有看到任何
如何
做到这一点的例子。我
在
Python3环境中
使用
PySpark 2.0。我有随机
数据
,二进制
数据
,.jpg
数据
,随机字符串。我只需要将
数据
放回底层存储。
浏览 3
提问于2017-04-20
得票数 2
2
回答
在
火花流上下文中将RDD写入
HDFS
、
、
、
、
我有一个
spark
1.2.0的
spark
流媒体环境,我从本地文件夹
中
检索
数据
,每次我发现文件夹
中
添加了一个新文件时,我都会执行一些转换。,并将它们
保存
在
HDFS
上。因为我真的需要
使用
数组来操作
数据
,所以不可能用DStream.saveAsTextFiles("...")将
数据
保存
在
HDFS
上(这将很好地工作),我必须
保存
RDD,但是有了这个p
浏览 1
提问于2015-07-02
得票数 7
回答已采纳
1
回答
如何
使用
spark
在
HDFS
中
保存
数据
?
、
、
、
我想
使用
Spark
Streaming从Kafka
中
检索
数据
。现在,我想将我的
数据
保存
在远程
HDFS
中
。我知道我必须
使用
函数saveAsText。但是,我并不确切地知道
如何
指定路径。myDStream.foreachRDD(frm->{ frm.saveAsTextFile("
hdfs
://ip_addr:9000//home/
浏览 7
提问于2017-01-31
得票数 3
回答已采纳
1
回答
如何
根据
HDFS
中
的
数据
创建外部星表
、
我已经将
HDFS
中
的一个拼花表加载到一个DataFrame
中
:现在我想将这个表公开给
Spark
,但是这必须是一个持之以恒的表,因为我想通过JDBC连接或其他Sessions来访问它。快速的方法可以是调用df.write.saveAsTable方法,但在这种情况下,它将实现DataFrame的内容,并创建一个
浏览 1
提问于2018-04-26
得票数 5
2
回答
增加Hadoop-MapReduce集群
中
此
数据
存储库的大小
、
、
、
对于
使用
Hadoop-MapReduce集群的视频仓库,每天接收大约30000 in的
数据
,
如何
在集群
中
满足磁盘存储需求?在这种情况下,任何帮助都将不胜感激。你好,Behrouz
浏览 0
提问于2017-07-09
得票数 0
1
回答
如何
在没有
Spark
的情况下直接编辑HBase HFile
、
我需要批量编辑HBase
数据
,为每一行编辑特定单元格的内容。通过HBase PUT/GET API不是一种选择,因为这会非常慢。我想设置一个
Spark
任务,它将HBase HFile加载到正确定义的DFs
中
,让我编辑特定列
中
的
数据
,然后将
数据
保存
回
HDFS
,保持HFile格式。我找到了关于
如何
将HFile从
Spark
批量写入
HDFS
的几个指南,但是,我不确定
如何
从
浏览 0
提问于2019-01-24
得票数 1
回答已采纳
1
回答
如何
在
spark
中
缓存随机森林模型
、
、
我的平台是
Spark
2.1.0,
使用
python语言。但是我不知道
如何
缓存模型,因为模型不是RDD或Dataframe。 谢谢!
浏览 1
提问于2018-05-27
得票数 1
回答已采纳
1
回答
spark
-ml朴素贝叶斯
保存
到
hdfs
、
、
、
我知道通过
spark
-mllib,我们可以通过save()方法将朴素贝叶斯模型
保存
到
hdfs
中
。但是我们尝试
使用
spark
-ml朴素贝叶斯来
保存
到
hdfs
中
,然后它给出了错误。错误的文件系统:
hdfs
://本地主机:8020/pa/model/nb,应为: file:/// 我
使用
的是
spark
-1.6
浏览 0
提问于2016-06-21
得票数 0
1
回答
Ignite for
spark
如何
处理重复删除?
、
我
使用
Ignite作为
Spark
的外部
数据
源,我需要一些提示来理解Ignite for
Spark
如何
处理从缓存和文件加载的重复
数据
删除,最好告诉我哪个类文件用于此目的,谢谢。
浏览 15
提问于2021-03-10
得票数 0
1
回答
如何
共享全局
spark
会话?
实际上,我
在
一个项目中工作,其中包括一个由多个任务和单个任务组成的多个组件组成的工作流程。例如。
在
join
中
,我们需要4个组件。因此,流程类似于,
使用
spark
submit为join创建一个
spark
会话,将输出
保存
在
hdfs
中
,并关闭当前
spark
会话。对于排序,
使用
spark
创建另一个会话,并通过join任务获取存储
在
hdfs
中</
浏览 30
提问于2019-07-19
得票数 1
3
回答
Spark
、Hadoop和Cassandra之间的关系是什么
、
、
、
我的理解是
Spark
是Hadoop的替代品。但是,当尝试安装
Spark
时,安装页面要求安装现有的Hadoop。我找不到任何可以澄清这种关系的东西。其次,
Spark
显然与Cassandra和Hive有很好的连接性。两者都有sql风格的界面。然而,
Spark
有它自己的sql。为什么要
使用
Cassandra/Hive而不是
Spark
的原生sql?
浏览 2
提问于2015-06-27
得票数 38
1
回答
使用
HDFS
实现节点本地
数据
局部化是否需要
使用
Spark
和YARN?
、
、
使用
HDFS
实现节点本地
数据
局部化是否需要
使用
Spark
和YARN? 如果我
使用
Spark
独立集群管理器,并将我的
数据
分布
在
HDFS
集群
中
,
Spark
如何
知道
数据
位于节点本地?
浏览 1
提问于2016-10-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Python中清除临时变量后如何保存数据
使用BOOTSTRAP保存数据到数据库中
在shell中如何判断HDFS中的文件目录是否存在
在AIScratch中如何保存列表到文件中
如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券