腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
hadoop
fs -text vs
hadoop
fs -cat vs
hadoop
fs -get
、
、
我相信下面所有的命令都可以用来将hdfs文件复制到本地文件
系统
。有什么不同/情景利弊。(
Hadoop
新手在这里)。
hadoop
fs -text /hdfs_dir/* >> /local_dir/localfile.txt
hadoop
fs -cat /hdfs_dir/* >> /local_dir/localfile.txt
hadoop
fs -get /hdfs_dir&
浏览 0
提问于2014-09-19
得票数 2
1
回答
命令查找
hadoop
目录中的最
大文件
。
、
、
、
、
我试图在
hadoop
文件
系统
上的给定目录中找到最大的文件。我找到了以下链接:,它显示了以下查找最
大文件
的命令:但当我跑的时候我找到find我还运
浏览 0
提问于2016-12-21
得票数 4
回答已采纳
3
回答
Hadoop
:为什么在RecordReader实现中使用FileSplit
在
Hadoop
中,考虑一个
大文件
已经加载到hdfs文件
系统
的场景,使用hdfs dfs put或hdfs dfs CopyFromLocal命令,
大文件
将被拆分成块(64MB)。
浏览 3
提问于2014-12-31
得票数 0
1
回答
我是否可以运行
Hadoop
onflow (在应用程序运行时运行map还原)
、
我们能在流上使用
hadoop
生成输出吗?我有一个由日志和预约id组成的
大文件
,如果我使用传统的RDBMS,我可以得到预约id,但需要1或2个小时。日志文件大小为800 GB On意味着在管理员登录到
系统
时显示此约会id。我是否可以运行
Hadoop
onflow (在应用程序运行时运行map还原)
浏览 4
提问于2013-10-25
得票数 0
回答已采纳
1
回答
有选择地从
Hadoop
垃圾桶中
删除
内容
、
、
Hadoop
根据fs.trash.interval定期从垃圾桶中
删除
内容,用户也可以触发delete by expunge命令,但这只会
删除
超过该时间间隔的文件。如果我想有选择地从垃圾桶中
删除
某些
大文件
来恢复空间,该怎么办?这样做的缺点是什么?
浏览 2
提问于2014-07-23
得票数 3
1
回答
在
Hadoop
框架中拆分
大文件
有什么好处
据我所知,
Hadoop
正在将
大文件
拆分成块这些
大文件
可以是文本或图像,如果我取消拆分功能会怎么样?这会影响
Hadoop
的性能吗?
浏览 1
提问于2015-05-12
得票数 0
3
回答
Hadoop
滚动小文件
、
、
、
我正在运行
Hadoop
的一个项目,需要一个建议。必须有一种正确的方法,简单地将大约100个文件滚动/合并为一个。因此
Hadoop
有效地读取了一个
大文件
,而不是10个。 有什么建议吗?
浏览 0
提问于2010-11-16
得票数 1
1
回答
Hadoop
>在
Hadoop
作业运行时,datanode和namenode进程是否正在运行
、
Hadoop
启动后,两种类型的守护进程正在运行。一个是namenode上名为namenode的守护进程,另一个是datanode上名为datanode的守护进程。我确信当通过"hdfs dfs“命令将本地文件
系统
中的
大文件
加载到HDFS时,会使用它们。 但它是否也在
Hadoop
MapReduce作业运行时使用?
浏览 0
提问于2015-11-14
得票数 0
2
回答
Hadoop
流多行输入
、
、
、
我正在使用进行一些
Hadoop
流媒体作业。我有一堆JSON字典,每个字典都包含一篇文章(多行文本)和一些元数据。我知道
Hadoop
在提供
大文件
时性能最好,所以我希望将所有JSON字典合并到一个文件中。或者对字符串进行编码(base64?)会不会
删除
所
浏览 1
提问于2010-07-25
得票数 1
2
回答
请澄清我对
Hadoop
/HBase的理解
、
Hadoop
是为从头到尾的大数据而设计的。引擎只使用分布式附加
系统
,这意味着一旦插入数据,就不能
删除
数据。要访问数据,可以使用Mapreduce,或者HDFS shell和HDFS。
Hadoop
不喜欢小块,它从来就不是一个实时
系统
。您不希望存储单个人和每个文件的地址,实际上,您将存储100万个人和每个文件的地址,并插入
大文件
。最大的区别在于它使用了
hadoop
提供的HDFS构建,允许它可靠地扩展到仅受钱包限制的大小。
Hadoop
是文件
系统
浏览 2
提问于2013-02-15
得票数 2
1
回答
在
hadoop
python中处理多个文件
、
、
、
、
我有一个场景,文本分隔的文件每30分钟从不同的服务器(大约10)到达
hadoop
系统
。 我希望这个解决方案能在python中实现,但是希望使用
hadoop
中的任何工具/技术的解决方案。
浏览 1
提问于2017-04-16
得票数 0
2
回答
如何理解"
hadoop
有利于顺序数据访问“
我试着比较一下在本地文件
系统
和HDFS之间编写一个
大文件
的性能。结果有点让我困惑。从本地写到的时间比HDFS短。我不明白"
Hadoop
有利于顺序数据访问“的概念.records out [root@datanodetest01 tmp]# time
hadoop
浏览 3
提问于2015-09-07
得票数 1
回答已采纳
1
回答
Hadoop
:对小文件使用CombineFileInputFormat会提高性能吗?
、
我对
hadoop
很陌生,并且在本地机器上进行了一些测试。 有许多解决方案来处理,许多小文件,。我正在使用CombinedInputFormat,它扩展了CombineFileInputFormat。
浏览 3
提问于2016-03-19
得票数 0
1
回答
Hadoop
:是否有可能将多个文件一分为二?
、
我有很多文件组成的输入。它们的尺寸比blockSize大。每个文件经过处理后,至少会诱导一个InputSplit来处理它。基于FileInputFormat代码,它不是:337 Path path = file.getPath();339 if (length != 0) {341
浏览 1
提问于2016-07-08
得票数 0
回答已采纳
3
回答
hadoop
是如何处理
大文件
的?
、
我完全是
Hadoop
的新手,尽管我对map reduce的概念非常了解。 大多数
Hadoop
教程都从WordCount示例开始。所以我写了一个简单的字数统计程序,运行得很好。因此,我向
Hadoop
专家提出的问题是,
Hadoop
将如何处理
大文件
?它是将文件的副本传输到每个映射器,还是自动将其拆分成块并将这些块传输到映射器?我使用MapReduce的大部分经验都是因为
Hadoop
的映射器可以一次处理文档,但从我读到的关于CouchDB的内容来看,我想知道它是设计用于处理多个小文件还是几个<e
浏览 1
提问于2013-03-19
得票数 3
回答已采纳
1
回答
用Dask从文件
系统
/S3中并行读取文件块?
、
我正在整理一个概念证明,在分布式环境中,我希望使用PyCuda来处理字符数据的
大文件
(每个任务在一个文件中~8GB)- AWS是具体的。我知道HDFS将分割数据文件并将其分发给工作人员,但我正在尽量保持环境的简单性,如果不必安装
Hadoop
,我宁愿不必安装
Hadoop
。鉴于上述段落和Dask框架,当前对文件
系统
的建议是什么?我是继续使用HDFS,还是有更好/更简单的解决方案?
浏览 2
提问于2016-05-16
得票数 3
回答已采纳
2
回答
如何从Ubuntu卸载或
删除
Hadoop
?
、
我已经在我的
系统
中安装了
Hadoop
-2.4.0 (14.04),我希望完全
删除
它并重新安装它。如果我
删除
了已配置的文件夹
hadoop
,是否足以
删除
我的Ubuntu14.04LTS中的
hadoop
。
浏览 0
提问于2014-05-09
得票数 4
回答已采纳
2
回答
在linux中,即使卷不是满的,文件
系统
也能满员吗?
、
在linux中,即使卷不是满的,文件
系统
也能满员吗?我们如何在存储空间上区分文件
系统
和卷?
浏览 0
提问于2019-10-11
得票数 0
回答已采纳
1
回答
如何在
Hadoop
中处理
大文件
?
、
、
这是一个noobie问题3 4 3 7 3 8 5 6 其中每列表示顶点,每行表示边。如何在
Hadoop
中处理
大文件
的这种情况?像这样读取意味着将整个内容加载到RAM中?在
Hadoop
中执行此操作的最佳方法是什么?
浏览 2
提问于2014-06-12
得票数 0
1
回答
fs.s3.buffer.dir中临时文件的累积
、
、
、
、
我正在使用s3运行EC2集群(s3://文件
系统
)。在这里,当我运行任何hive查询或对非常大的数据进行操作的
hadoop
命令时,它会在将临时文件复制到s3之前/之后将它们复制到节点上的本地磁盘上。理想情况下,它应该
删除
这些文件,但在某些情况下,它不会
删除
这些文件,从而导致堆积了大量.tmp文件(以GB为单位)。导致了空间问题。在这种情况下,请建议最好的解决方
浏览 0
提问于2015-11-24
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop MapReduce v1 系统剖析
大数据Hadoop生态系统介绍
设计一个大文件存储系统
解决在服务器中减少删除大文件夹耗时太久的问题
初次遇见大数据及Hadoop生态系统
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券