对比学习的主要思想就是相似的样本的向量距离要近,不相似的要远.对比学习在有监督/无监督场景下都取得了非常亮眼的成绩,所以是我们炼丹的必备知识.早期的对比学习是只有一个正样本和一个负样本进行对比,最近的训练目标变成了一个...batch内多个正/负样本进行训练....定义一个锚点(anchor) x,有个正例x+和一个负例x-,所以目标函数就是要最小化x和x+的距离,最大化x和x-的距离,定义如下所示:
Lifted Structured Loss
该loss为了更好的计算效率...,{x,x+, x1-, ..., x(N-1)-},包含1个正样本和N-1个负样本,N-pair loss定义如下所示:
NCE
NCE本身是统计模型做参数估计的方法,思想就是用罗杰斯特回归来区分数据和噪声....非噪声样本的概率用P表示,噪声样本的概率用q表示,如下所示:
所以NCE的loss函数定义如下:
我们看到NCE loss只对一个正样本和一个噪声样本生效.