同事最近对MR on Yarn中Map数量的一个小的研究,描述如下:
在新版MapReduce 中即 MR on yarn中,不支持设置Map数量。
Map的数量是由MinInputSplitSize决定的,公式:
Map的数量 = TotalSize / MinInputSplitSize
要想控制Map的数量,可以通过控制MinInputSplitSize大小来控制Map数量。
如果设置的MinInputSplitSize大于BlockSize,MinInputSplitSize即为设置的值; 反之设置的MinInputSplitSize小于BlockSize,MinInputSplitSize的值会置为BlockSize。
如果保持默认设置的话,MinInputSplitSize则为BlockSize,