腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
Hive性能提升
当我对大表进行任何查询时,都会花费更多
的
时间。我想在更短
的
时间内得到结果hive> select count(*) from cidade; hdfs-site.
xml
</description></configuration> 这些设置是否会影响配置单元
的
性能?或者
在
.
浏览 1
提问于2012-11-01
得票数 2
回答已采纳
4
回答
如何限制映射器
的
数量
、
我使用conf.setNumMapTasks()显式地指定了java程序
中
的
映射器
的
数量,但是当作业结束时,计数器显示启动
的
映射
任务
的
数量超过了指定值。如何将映射器数量限制
在
指定值?
浏览 0
提问于2013-10-24
得票数 3
3
回答
Hadoop
-
在
xml
中
增加
地图
任务
不会
在
运行时
增加
地图
任务
、
我
在
conf/mapred-site.
xml
中
添加了以下内容 <name>mapred.tasktracker.
map
.tasks.maximum</name>附言:我正在使用Ubuntu Quad core盒子 谢谢
浏览 0
提问于2011-10-08
得票数 5
回答已采纳
2
回答
减少
Hadoop
流媒体期间
的
Map
任务
数
我有一个包含3072个文件
的
文件夹,每个文件大小约为50MB。我正在使用
Hadoop
流对此输入运行Python脚本,并提取一些数据。14/11/11 09:58:52 INFO mapreduce.JobSubmitter: number of splits:3072 因此创建了3072个
map
<
浏览 1
提问于2014-11-11
得票数 0
1
回答
增加
地图数量和减少功能
、
、
我希望
增加
我
的
地图,并将函数减少到输入数据
的
数量。conf.setNumReduceTasks(1000000)和conf.setNumMapTasks(1000000)并再次执行println方法时,它将向我展示:但我认为我
的
mapreduce我
的
输入来自卡桑德拉,实际上是卡桑德拉列
的
家族行,大约是362000行。我想设置我
的
地图
的
数目,并将函数减少为输入行
的
数目。 我该怎么办?
浏览 1
提问于2013-10-04
得票数 0
回答已采纳
1
回答
如何通过实现getSplits来
增加
hadoop
map
任务
、
、
、
我希望
在
每个
hadoop
节点上有大约40个线程处理CSV线路。但是,当我
在
Amazon EMR上创建一个具有5台机器(1台主服务器和4个核心)
的
集群时,我可以看到我只有2个
map
任务
在运行,即使有6个可用
map
插槽:我
在
我
的
inputFormat
中
实现了此外,我尝试设置参数-s,mapred.tasktracker.
map
.tasks.maximum=10 --args -jobconf
浏览 1
提问于2013-01-29
得票数 0
回答已采纳
2
回答
如何通过API访问
Hadoop
计数器值?
、
、
、
在
Hadoop
中
,我们可以
在
map
/ looks
任务
中
增加
计数器,如下所示:context.getCounter(MyCountersEnum.SomeCounter).increment(1
在
日志
中
找不到它们
的
价值。读取计数器值
的
Hadoop
是什么?
浏览 3
提问于2014-12-05
得票数 2
回答已采纳
2
回答
hadoop
:当文件小于64M时,
增加
节点数量会对处理速度产生影响吗?
、
我知道默认
的
块大小是64M,拆分是64M,那么对于小于64M
的
文件,当节点数量从1
增加
到6个时,只会有一个节点与拆分有关,所以速度
不会
提高吗?是那么回事吗?如果它是一个128米
的
文件,就会有两个节点,两个分叉,速度比一个节点快,如果超过三个节点,速度就
不会
增加
,对吗? 我不知道我
的
理解是否是correct.Thanks
的
任何评论!
浏览 1
提问于2018-03-19
得票数 1
回答已采纳
1
回答
如何告诉
hadoop
将多少内存分配给单个映射器作业?
、
、
、
、
我已经创建了一个弹性MapReduce作业,并且我正在尝试优化它
的
性能。elastic-mapreduce --create --alive --num-instance 3\ --bootstrap-action s3://elasticmapreduce/bootstrap-actions/configure-
hadoop</em
浏览 1
提问于2011-09-27
得票数 0
2
回答
基于EMR
的
Hadoop
-
Map
任务
不并行
、
我已经通过AWS
中
的
数据管道设置了一个电子病历工作。此工作是将CSV数据从S3传输到DynamoDB。 我
的
数据大小是400MB。这样,我就可以
在
监控图中看到有3个
map
任务
。但这些
任务
永远
不会
并行运行。因此,完成400MB需要43分钟。
任务
的
stderr日志始终显示正在按顺序运行
的
map
任务
。我尝试了两个不同实例类型
的
核心节点,比如m1.mal
浏览 0
提问于2014-06-11
得票数 0
4
回答
Map
Reduce插槽定义
、
、
、
、
我正在成为cloudera
Hadoop
管理员
的
路上。从我开始,我听说了很多关于
在
Hadoop
集群中计算每台机器
的
插槽,比如定义
Map
插槽和Reduce插槽
的
数量。我
在
互联网上搜索了一段时间,以获得
Map
Reduce插槽
的
Noob定义,但没有找到。 通过PDF解释
Map
Reduce
的
配置,我真的很生气。请解释一下,当涉及到集群
的
Machine
中</em
浏览 1
提问于2014-08-16
得票数 5
3
回答
地图端加入
Hadoop
失去优势
的
数据局部性?
我
的
问题与
Hadoop
中
的
Map
side join有关。前几天我正在读ProHadoop,我不明白下面这句话如果已排序
的
数据集存储
在
H
浏览 0
提问于2012-05-31
得票数 1
2
回答
Hadoop
集群-如何知道每个
任务
跟踪器
的
map
/reduce
任务
的
理想最大数量
、
我刚刚使用
Hadoop
0.20.205设置了一个
Hadoop
集群。我有一个主机(NameNode和JobTracker)和另外两个盒子(从机)。我正在尝试理解如何定义要使用
的
map
和reduce
任务
的
数量。能够同时处理
的
最大
map
和reduce
任务
数。此外,我还可以定义使用*mapred.
map
.tasks*时整个集群可以同时运行
的
映射
任务
的
最大数量。是那么回事
浏览 0
提问于2013-12-03
得票数 1
1
回答
使用和不使用reducer
的
map
-reduce作业
的
时间比较
、
在
我
的
Hapoop作业
中
,当我将reducers
的
数量设置为0时,映射阶段比reducers数量不为0
的
情况要快得多。
在
映射阶段
的
开始,有reducer在运行,所以我不明白为什么映射时间会急剧
增加
。
浏览 7
提问于2013-10-29
得票数 0
2
回答
无法
在
azure上
的
hadoop
中
设置映射器
的
数量
、
、
我正在使用微软
的
azure上
的
hadoop
运行一些mapreduce作业。我还将每个
任务
跟踪器
中
的
map
任务
数设置为16。(它是一个3+1节点集群)。我还尝试使用-D选项设置mapred.
map
.tasks属性。但是这些努力都没有成功地
增加
map
任务
的
数量,令人惊讶
的
是仍然是1。编辑:输入大小很大(单位为GB)
浏览 2
提问于2012-10-26
得票数 0
3
回答
Hadoop
作业:
任务
在
601秒内无法报告状态
、
、
、
在
伪节点上运行
hadoop
作业时,
任务
失败并被终止。错误: Task attempt_
在
601秒内无法报告状态问题可能是什么?
浏览 0
提问于2012-02-02
得票数 5
回答已采纳
2
回答
是否可以
在
一个节点上运行多个映射器?
、
、
我有KMeans
的
代码,我
的
任务
是计算加速比,我是通过
在
uni集群
中
不同数量
的
节点上运行它来完成
的
。但是,是否可以更改映射器和/或减速器
的
数量,以便在单个节点上
运行时
可以检查加速比
的
变化。
在
谷歌搜索时,我发现通过使用conf.setNumReduceTasks(2);,我可以改变减速器
的
数量。但我没有看到我
的
产出有任何变化。(我
的
输出是
浏览 1
提问于2016-05-15
得票数 2
回答已采纳
2
回答
有一个线程安全
的
Mapper类
、
、
、
为了避免
在
Hadoop
类
的
每个实例上分配内存,然后依赖GC来清理内存,我使用了
在
map
方法
中
访问、读取和写入
的
静态对象。 我需要关心线程安全吗?
浏览 0
提问于2013-03-20
得票数 0
回答已采纳
2
回答
我可以让我
的
Hadoop
reducer更快吗?
、
我是
Hadoop
的
新手,正在尝试wordcount示例。我只构建了一个引用
的
节点13/06/04 15:53:14 INFO mapred.JobClient:
map
100% reduce 0%
浏览 3
提问于2013-06-05
得票数 0
回答已采纳
3
回答
Hadoop
map
reduce-仅在所有地图运行后才将mapper
的
输出发送到reduce
、
只有在所有地图运行后,我才需要在一台计算机中发送我
的
地图程序
的
输出。如果计算机#1运行他
的
地图功能1000次,我希望输出在所有1000个地图发生后发送。一旦我找到了局部质心,我想要发送给reducer,局部质心以及与它们相关
的
点
的
数量。但问题是,只有
在
机器
的
所有地图函数运行后,我才能知道视图
浏览 3
提问于2016-01-06
得票数 0
点击加载更多
相关
资讯
浅析大数据Hadoop之YARN架构
好程序员大数据教程路线分享marpreduce快速入门
浅析Hadoop MapReduce架构
好程序员大数据高端班划重点 hadoop常用四大模块文件
大数据入门之路——Hadoop基础学习
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券