Hadoop - 在xml中增加map任务不会增加运行时的map任务 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

Hive性能提升

当我对大表进行任何查询时，都会花费更多的时间。我想在更短的时间内得到结果hive> select count(*) from cidade; hdfs-site.xml</description></configuration> 这些设置是否会影响配置单元的性能？或者在.

浏览 1提问于2012-11-01得票数 2

回答已采纳

4回答

如何限制映射器的数量

、

我使用conf.setNumMapTasks()显式地指定了java程序中的映射器的数量，但是当作业结束时，计数器显示启动的映射任务的数量超过了指定值。如何将映射器数量限制在指定值？

浏览 0提问于2013-10-24得票数 3

3回答

Hadoop -在xml中增加地图任务不会在运行时增加地图任务

、

我在conf/mapred-site.xml中添加了以下内容 <name>mapred.tasktracker.map.tasks.maximum</name>附言:我正在使用Ubuntu Quad core盒子谢谢

浏览 0提问于2011-10-08得票数 5

回答已采纳

2回答

减少Hadoop流媒体期间的Map任务数

我有一个包含3072个文件的文件夹，每个文件大小约为50MB。我正在使用Hadoop流对此输入运行Python脚本，并提取一些数据。14/11/11 09:58:52 INFO mapreduce.JobSubmitter: number of splits:3072 因此创建了3072个map<

浏览 1提问于2014-11-11得票数 0

1回答

增加地图数量和减少功能

、、

我希望增加我的地图，并将函数减少到输入数据的数量。conf.setNumReduceTasks(1000000)和conf.setNumMapTasks(1000000)并再次执行println方法时，它将向我展示：但我认为我的mapreduce我的输入来自卡桑德拉，实际上是卡桑德拉列的家族行，大约是362000行。我想设置我的地图的数目，并将函数减少为输入行的数目。我该怎么办？

浏览 1提问于2013-10-04得票数 0

回答已采纳

1回答

如何通过实现getSplits来增加hadoop* map任务*

、、、

我希望在每个hadoop节点上有大约40个线程处理CSV线路。但是，当我在Amazon EMR上创建一个具有5台机器(1台主服务器和4个核心)的集群时，我可以看到我只有2个map任务在运行，即使有6个可用map插槽：我在我的inputFormat中实现了此外，我尝试设置参数-s,mapred.tasktracker.map.tasks.maximum=10 --args -jobconf

浏览 1提问于2013-01-29得票数 0

回答已采纳

2回答

如何通过API访问Hadoop计数器值？

、、、

在Hadoop中，我们可以在map/ looks任务中增加计数器，如下所示：context.getCounter(MyCountersEnum.SomeCounter).increment(1在日志中找不到它们的价值。读取计数器值的Hadoop是什么？

浏览 3提问于2014-12-05得票数 2

回答已采纳

2回答

hadoop:当文件小于64M时，增加节点数量会对处理速度产生影响吗？

、

我知道默认的块大小是64M，拆分是64M，那么对于小于64M的文件，当节点数量从1增加到6个时，只会有一个节点与拆分有关，所以速度不会提高吗？是那么回事吗？如果它是一个128米的文件，就会有两个节点，两个分叉，速度比一个节点快，如果超过三个节点，速度就不会增加，对吗？我不知道我的理解是否是correct.Thanks的任何评论！

浏览 1提问于2018-03-19得票数 1

回答已采纳

1回答

如何告诉hadoop将多少内存分配给单个映射器作业？

、、、、

我已经创建了一个弹性MapReduce作业，并且我正在尝试优化它的性能。elastic-mapreduce --create --alive --num-instance 3\ --bootstrap-action s3://elasticmapreduce/bootstrap-actions/configure-hadoop</em

浏览 1提问于2011-09-27得票数 0

2回答

基于EMR的Hadoop* - Map任务不并行*

、

我已经通过AWS中的数据管道设置了一个电子病历工作。此工作是将CSV数据从S3传输到DynamoDB。我的数据大小是400MB。这样，我就可以在监控图中看到有3个map任务。但这些任务永远不会并行运行。因此，完成400MB需要43分钟。任务的stderr日志始终显示正在按顺序运行的map任务。我尝试了两个不同实例类型的核心节点，比如m1.mal

浏览 0提问于2014-06-11得票数 0

4回答

Map Reduce插槽定义

、、、、

我正在成为cloudera Hadoop管理员的路上。从我开始，我听说了很多关于在Hadoop集群中计算每台机器的插槽，比如定义Map插槽和Reduce插槽的数量。我在互联网上搜索了一段时间，以获得Map Reduce插槽的Noob定义，但没有找到。通过PDF解释Map Reduce的配置，我真的很生气。请解释一下，当涉及到集群的Machine中</em

浏览 1提问于2014-08-16得票数 5

3回答

地图端加入Hadoop失去优势的数据局部性？

我的问题与Hadoop中的Map side join有关。前几天我正在读ProHadoop，我不明白下面这句话如果已排序的数据集存储在H

浏览 0提问于2012-05-31得票数 1

2回答

Hadoop集群-如何知道每个任务跟踪器的map/reduce任务的理想最大数量

、

我刚刚使用Hadoop 0.20.205设置了一个Hadoop集群。我有一个主机(NameNode和JobTracker)和另外两个盒子(从机)。我正在尝试理解如何定义要使用的map和reduce任务的数量。能够同时处理的最大map和reduce任务数。此外，我还可以定义使用*mapred.map.tasks*时整个集群可以同时运行的映射任务的最大数量。是那么回事

浏览 0提问于2013-12-03得票数 1

1回答

使用和不使用reducer的map-reduce作业的时间比较

、

在我的Hapoop作业中，当我将reducers的数量设置为0时，映射阶段比reducers数量不为0的情况要快得多。在映射阶段的开始，有reducer在运行，所以我不明白为什么映射时间会急剧增加。

浏览 7提问于2013-10-29得票数 0

2回答

无法在azure上的hadoop中设置映射器的数量

、、

我正在使用微软的azure上的hadoop运行一些mapreduce作业。我还将每个任务跟踪器中的map任务数设置为16。(它是一个3+1节点集群)。我还尝试使用-D选项设置mapred.map.tasks属性。但是这些努力都没有成功地增加map任务的数量，令人惊讶的是仍然是1。编辑:输入大小很大(单位为GB)

浏览 2提问于2012-10-26得票数 0

3回答

Hadoop作业:任务在601秒内无法报告状态

、、、

在伪节点上运行hadoop作业时，任务失败并被终止。错误: Task attempt_在601秒内无法报告状态问题可能是什么？

浏览 0提问于2012-02-02得票数 5

回答已采纳

2回答

是否可以在一个节点上运行多个映射器？

、、

我有KMeans的代码，我的任务是计算加速比，我是通过在uni集群中不同数量的节点上运行它来完成的。但是，是否可以更改映射器和/或减速器的数量，以便在单个节点上运行时可以检查加速比的变化。在谷歌搜索时，我发现通过使用conf.setNumReduceTasks(2);，我可以改变减速器的数量。但我没有看到我的产出有任何变化。(我的输出是

浏览 1提问于2016-05-15得票数 2

回答已采纳

2回答

有一个线程安全的Mapper类

、、、

为了避免在Hadoop类的每个实例上分配内存，然后依赖GC来清理内存，我使用了在map方法中访问、读取和写入的静态对象。我需要关心线程安全吗？

浏览 0提问于2013-03-20得票数 0

回答已采纳

2回答

我可以让我的Hadoop* reducer更快吗？*

、

我是Hadoop的新手，正在尝试wordcount示例。我只构建了一个引用的节点13/06/04 15:53:14 INFO mapred.JobClient: map 100% reduce 0%

浏览 3提问于2013-06-05得票数 0

回答已采纳

3回答

Hadoop map reduce-仅在所有地图运行后才将mapper的输出发送到reduce

、

只有在所有地图运行后，我才需要在一台计算机中发送我的地图程序的输出。如果计算机#1运行他的地图功能1000次，我希望输出在所有1000个地图发生后发送。一旦我找到了局部质心，我想要发送给reducer，局部质心以及与它们相关的点的数量。但问题是，只有在机器的所有地图函数运行后，我才能知道视图

浏览 3提问于2016-01-06得票数 0

点击加载更多

Hive性能提升

如何限制映射器的数量

Hadoop -在xml中增加地图任务不会在运行时增加地图任务

减少Hadoop流媒体期间的Map任务数

增加地图数量和减少功能

如何通过实现getSplits来增加hadoop* map任务*

如何通过API访问Hadoop计数器值？

hadoop:当文件小于64M时，增加节点数量会对处理速度产生影响吗？

如何告诉hadoop将多少内存分配给单个映射器作业？

基于EMR的Hadoop* - Map任务不并行*

Map Reduce插槽定义

地图端加入Hadoop失去优势的数据局部性？

Hadoop集群-如何知道每个任务跟踪器的map/reduce任务的理想最大数量

使用和不使用reducer的map-reduce作业的时间比较

无法在azure上的hadoop中设置映射器的数量

Hadoop作业:任务在601秒内无法报告状态

是否可以在一个节点上运行多个映射器？

有一个线程安全的Mapper类

我可以让我的Hadoop* reducer更快吗？*

Hadoop map reduce-仅在所有地图运行后才将mapper的输出发送到reduce

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐