大数据文摘出品
作者:宁静、曹培信
7月30日,文摘菌曾报道过,被谷歌XLNet全面刷爆的BERT,被Facebook升级后,变身"Robustly optimized BERT approach"——强力优化BERT方法,重新称霸GLUE、SQuAD和RACE三个排行榜。
在RACE测试集上的结果显示,RoBERTa的Accyracy相比BERT(large)提高了10个百分点,相比XLNet(large)提高了2个百分点。
现在,Facebook AI又将RoBERTa提交到了SuperGLUE,榜单显示RoBERTa已经领先Bert 15个百分点,表现直逼人类。
从GLUE到SuperGLUE:难度更大
SuperGLUE在GLUE设计的基础上,采用了一系列更加困难的语言理解任务,除了共同任务识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)外,还添加了常识推理和词义消除等任务,上表中给出的其他测试数据集包括:
CB短文本语料库
MultiRC真假问答任务数据集
COPA因果推理
WiC词义消岐
RoBERTa离人类还有多远
从SuperGLUE排行榜上看,RoBERTa的得分距离人类只有5.2分,但是NYU数据科学中心助理教授Sam Bowman在其推特上,关于这一排行榜RoBERTa直逼人类的表现也发表了看法。
SuperGLUE代表的是我们需要处理的35个任务中最难的几个。而对于35个中的大多任务,BERT 本身的性能就已经快接近极限了。
还有几点需要注意:
RoBERTa良好的表现很大程度受益于充足的数据集:ReCoRD和MultiRC。效果转移到数据不佳的任务比较困难。
WinoGender coref.accuracy表现较好,但代价是gender parity更差。
RTE模型在downward monotone inferences仍然表现较差:例如,它倾向于假设“所有的狗都喜欢抓它们的耳朵”。“所有动物都喜欢搔耳朵。”
Sam Bowman认为,他对觉得RoBERTa有个明显的天花板,而我们对于人类表现有一个比较低的估计,他敢打赌,接下来的5到10个百分点将变得相当难以突破。
让我们期待通过算力数据以及大模型(Transformer),人类到底能够将NLP推到什么程度吧!
点「在看」的人都变好看了哦
领取专属 10元无门槛券
私享最新 技术干货