"微"模型

炼丹笔记

发布于 2021-10-26 05:32:01

6650

深度学习模型如何缩小到可以放到微处理器呢?作为炼丹师,模型变的越来越复杂,模型大小也不断增加.在工业场景下光训练数据就有几百T,训练就要多机多卡并行跑数天.到底如何把这些模型部署在小型嵌入式设备的呢?

要理解我们如何缩小模型,就要先理解模型文件如何被压缩.如下图所示,一个常见的DNN模型由神经元和它们之间的连接构成,模型的大小主要就是由这些weights构成.一个简单的CNN都有上百万的参数,我们知道训练的时候,它们的dtype都是float32,一个float32占4个字节,上百万的参数往往就占据几十兆的空间大小.几十兆的模型?我们可能觉得这已经很小了,但是一个微型处理器就只有256Kb的随机存储器.

为了把模型缩小到可以塞到这么小的处理器中,有以下几个框架:

AIMET from Qualcomm
TensorFlow Lite from Google
CoreML from Apple
PyTorch Mobile from Facebook

tensorflow提供一个python库tensorflow_model_optimization,这个库优化模型的延迟,大小.直观上,优化模型大小,一个就是优化参数的数量,另一个就是优化每个参数的大小.主要的方式就是以下几种.

Compression or Distillation

模型训练完成后,如何在准确率可接受的情况下压缩模型,最常见的方式就是剪枝和蒸馏.

剪枝-删除对输出影响较低或者可能会引起过拟合的weights,再剪枝后稀疏的神经网络需要重新被训练.蒸馏炼丹师都比较熟悉了,用小模型去学习打模型即可.

Quantisation

该方法用低精度的参数去学习一个同样效果的模型,这种方式提升了模型的处理能力和效率.这种方法主要是把float压缩到int8上,如下图所示:

Quantisation Aware Training(QAT) 这个方式是在模型训练过程中使用量化,如下图所示,该方法会带来噪声也会影响loss,所以学到的模型更加鲁棒.

Post-Training Quantisation (PTQ) 该方法不用重训练模型,直接把float32量化到int8,这样直接把模型大小降低了4倍,预估性能也提升了两倍,精度也没有显著下降.

weight clustering 使用权重聚类/共享,降低了存储参数的数量,该方法把一层的参数聚成N个类,并共享索引,举例来说,如果我们把一层聚成8个类,每个参数都会只占3bit(2^3 = 8).从实验我们可以看到,使用该方法可以降低模型大小6倍,仅仅降低了0.6%的准确率.我们还可以通过fine-tune聚类的中心点,来提升模型精度.