原文: https://machinethoughts.wordpress.com/2019/07/14/a-consistency-theorem-for-bert/
BERT[1] 看起来和伪-似然函数有关。这其实可以导出关于 BERT 的一个一致性定理。查阅论文[2],发现 Wang 和 Cho 也指出了 BERT 和 伪-似然函数之间的联系。Wang 和 Cho 将 BERT 看成是 Markov 随机场 (MRF) 并使用了 Gibbs 采样来采样句子。但他们没有提及一致性。本文将探讨 BERT 作为一个语言模型——作为在完整语句上的一个概率分布——是一致的。
Bert
对伪-似然函数的经典证明假设了实际的人群分布由 MRF 权重的某个设定定义的。对于 BERT 我们将这个假设替换成深度模型具备准确地建模不同条件分布的能力。因为深度模型直觉上比通过手工设计的特征的线性 MRF 更具有表达能力,这个深度表达性假设看起来比经典假设更弱。
除了假设普遍表达能力,我会假设训练找到了一个全局最优点。对于完全优化的假设目前是很多有关深度学习的直觉理解的基础支撑。考虑 GAN 的一致性定理,这个定理假设了生成器和判别器的普遍表达能力和完全优化。尽管这些假设看起来比较暴力,GAN 一致性定理已经成为了 GAN 架构的设计思路的源头。因此,这样暴力的假设的价值不应该被低估。