作为炼丹师,模型变的越来越复杂,模型大小也不断增加.在工业场景下光训练数据就有几百T,训练就要多机多卡并行跑数天.到底如何把这些模型部署在小型嵌入式设备的呢?...剪枝-删除对输出影响较低或者可能会引起过拟合的weights,再剪枝后稀疏的神经网络需要重新被训练.蒸馏炼丹师都比较熟悉了,用小模型去学习打模型即可....Quantisation
该方法用低精度的参数去学习一个同样效果的模型,这种方式提升了模型的处理能力和效率.这种方法主要是把float压缩到int8上,如下图所示:
Quantisation Aware...weight clustering 使用权重聚类/共享,降低了存储参数的数量,该方法把一层的参数聚成N个类,并共享索引,举例来说,如果我们把一层聚成8个类,每个参数都会只占3bit(2^3 = 8).从实验我们可以看到...Encoding
通过使用霍夫曼编码对模型进行压缩,使用01编码weights,把最常出现的权重用较少的bit去编码,如下图所示,我们有已经被量化的权重矩阵:
每个权重占5bit(0~31),如果使用霍夫曼编码