related work
在展示方法之前,我们需要回顾一下启发我们multi-modal laearning scheme的设计的两个关键部分:
可以看到,作者提出了一种新的结构chilopod-shape,并且用上了knowledge distillation的方法。
就是说,CT和MRI分别使用了不同的normalization层,相当于复用了所有的卷积核,除了这哥normalization层。
我们假设softmax之前的activation tensor是NxWxHxC维度的,N是batchsize,C是channels,C等于类别数目。我们最终为每一个标签蒸馏出一个C的向量。
然后计算probability distribution:
上面计算的z是在softmax之前的,这里的p则是softmax之后的概率分布。这里的T就是temperature scalar(Distilling the knowledge in a neural network,2015)提出的temperature scale,为了softer output的。作者将T设置为2,如果T=1那么就是传统的softmax。
作者用这样方法蒸馏出CT和MRI对于不同标签的分布
,
:
作者的方案中,这两个
,
式随着模型更新而更新的,计算两者的relative entropy,来用KL散度最小化两者的距离。所以KD-loss is:
所以整个框架的损失如下::