温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
听起来有点难,就不喜欢思考,只要动脑子就难受是吧?下来我们看一下第二个是合理设置维色数量啊,那那一样的也是一堆参数,可以控制这个维优色的一个数量,呃,那我们之前知道是不是这种是不是手动设置呀,我们可以控制多少个对吧?默认值是负一对吧,负一的话就它就可以根据你自己的任务来决定到底有多少个,假如说你分桶分四个,那就四个对吧?啊类似于这样情况啊,那如果说我们是普通的一个数据呢,它其实根据上面这种,就是说呢,这边有一个数据量,它会根据map端,就是维的一个,每个维色让他处理这个数据量就map,诶我是少写了一个什么啊,对,S没写啊。Map输出是不是有一个数据量啊,它会统计这个数据量,然后用这个值,这个是单个啊,单个reduce处理的数据量其实近似于256兆,56兆,同时他还有一个值最大的。
01:15
1009挺奇怪的,这个数字对吧?呃,那它是怎么计算的,我们数量是这样啊,幂。取小的取哪个呢?取刚才我们这个1009这个数据啊,当然这个值我们也可以改,对吧,最大的维C的个数啊呃,生产环境当中说有几千个reduce也是很正常的一件事情,因为数据量太大啊呃,第二个呢,他先把这个1009放在这,然后跟谁比呢?跟总的输入数据量除以。AC于256兆,跟这个相比,然后取一个小的值,也是根据数据量来的啊,那类似于map那边是不是跟128兆进行比较,切多少个map呀,对吧?128兆啊,那默认的128兆,因为在我们说的最小值是零,最大值是浪的最大值的基础上,是不是取的128兆,它其实就取中间的对吧?啊,那个公式呢,你不用记,你只要记得它取这三个值中间的一个值,对吧?啊,取中间那个值,但一样的,它也是根据数据量来的啊,所以呢,我们要去调整reduce的数量,那无非就是调这个参数,或者说假如说你一算出来超过了1009,你是不是也要调节它,把这个值设置更高一点啊,对吧?啊,或者另外一种方式呢,就是我们干什么?
02:30
直接写死啊,直接写死,当然对于任务来说,他也不是什么。越多越好啊,它也不是越多越好,因为呃,你一个过多了,那你每一个里分摊的数据量就少了,对吧?啊,很有可能处理的数据量太少,而且呢,最终他还要输出,输出的时候又形成了什么小文件,那下一级任务在用的时候输入又是小文件了,而且小文件我们可以输入的时候用can com input方来解决这个问题,但是你这个小文件是不是还是在。
03:03
HDF还存着呢,你还占用了内node的一个内存空间啊,对吧,所以我们还是希望它小文件怎么样啊,更少一点啊,这是我们去设置维丢数据的一个方法啊,在这里边主要通过这几个参数啊,主要是这三个参数啊,共同作用的啊,共同作用的,如果说你这个值不等于负一啊,它就不走这个了。它就不走它了,能懂意思,当我们是负一的时候,它才会走上面这个逻辑,去计算一下到底需要有多少个为硫酸啊。这是设置为六的数量。
我来说两句