几周前,谷歌发布了新的NLP模型XLNet,它在20项基准测试中均优于BERT。
但是与BERT相比,XLNet模型的训练数据比BERT大10倍。这让学术界和工业界对此产生了疑问:XLNet如果只接受与BERT相同规模的训练数据会如何?XLNet的胜利是否只是数据集的胜利?
今天,XLNet研究团队在Medium网站上用实际数据解答了众人的疑惑。他们使用近乎相同的数据集在XLNet和BERT之间进行公平对决,看看前者的性能到底有没有本质的提升。
为了保证公平性,团队确保BERT和XLNet中几乎所有可能的超参数尽量相同。在无法保证二者相同的情况下,他们还让参数的优势更向BERT倾斜。
超参数用的是原来BERT作者发布的数据。也就是说,这么做更有可能针对BERT而不是XLNet进行优化。
具体的超参数设置如下:
他们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较:
此外,他们还考虑了BERT的三种变体,并报告每个单独任务的最佳微调结果。
以上的设置可能会为BERT带来一些优势,因为BERT可以通过不同的变体获得单个任务的最佳性能。
二者在SQuAD、RACE等测试集上的结果如下,过程中没有使用数据扩增、集成学习或多任务学习。
测试结果说明了一些问题:
上述结果中让我们获得了一些宝贵的经验。
XLNet团队表示,将继续研究如何正确扩展XLNet语言预训练。根据目前有限的观察结果,他们推测以下训练细节可能会发挥重要作用:
数据相关:数据规模、数据来源、数据清洗、数据编码、数据格式化。 优化相关:学习率、batch size、训练步数、优化器。 这些超参数之间可能有高阶的相互作用。 Facebook AI最近的RoBERTa进入GLUE排行榜第一,似乎也暗示了训练细节的重要性。
原文链接: https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0
作者系网易新闻·网易号“各有态度”签约作者
— 完 —