下面以Llama3-8B为例,讲解调优全流程
Llama3-8B权重为15GB
计算公式为:Floor(单卡显存-空闲占用-权重/NPU卡数)* 系数,系数取值为0.8
单卡空闲显存:61GB
空闲占用:约3GB
npuMemSize = Floor (61 - 3 - 15/1 ) * 0.8 = 34GB
maxBatchSize = Total Block Num/Block Num,需要先计算出"Total Block Num"和"Block Num"的值
对于GQA类模型,注意力头大小=hidden_size/num_attention_heads
将以上参数值代入公式,得到Total Block Num = Floor34102410241024/(128 32 8(4096/32)22) = 2176
从下面benchmark信息获取数据集信息:
InputTokens: 60(avg), 186(max), 23(min)
OutputTokens: 467(avg), maxIterTimes(max), 18(min)
所需最小Block Num = Ceil(60/128) = 1
所需最大Block Num = Ceil(60/128)+Ceil(512/128) = 5
所需平均Block Num = Ceil(60/128)+Ceil(346/128) = 4
参数调优后测试结果:
可以看到,吞吐提升了18%。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。