大数据文摘出品
编译:武帅、宁静
研究人员的声望常与其论文相挂钩,如果你是一位教授,你发表的论文数量和质量决定了你是否会获得终身教职。如果你是一名学生,论文决定了你能否以及何时毕业,也会影响到你未来的工作或者学术前景。
一篇论文应该是一份详细的手稿,一份用于理解和复制研究想法的指南。但是论文所讲述的故事并不总是完整的:研究者们为了取悦审稿人,通常会省略一些细节或者模糊化他们的方法。随着研究者们实验的深入以及和同行的交流,他们对所发表的论文的理解也会加深,而这些发展很少公开发表(除非有足够的材料来撰写另一篇文章)。
这并不是说研究者们都不诚实,只不过是不值得花费宝贵的时间来撰写这些发展罢了,机器学习被视为是一个“公开”的领域,它正在发生着改变。Rescience发布以往论文的副本,而Distill则专门发布有关这些论文的有趣见解,研究者们也开始因为撰写高质量的博客文章以及编写能够复刻他们研究结果的简洁易读的代码而被人们所认可。
如图所示,借助交互式可视化技术,Distill正专注于一种新型的奖学金:提炼现有的研究思路使其更加容易理解
相比于公开发表,研究者更多地选择与朋友和同事谈论过去的工作,也更愿意承认其不足之处。但是许多有抱负的研究者没有办法参加相关会议,自然也没有机会和那些建立在他们研究基础之上的研究人员进行这种开诚布公的对话。
一位研究人员说,“每跑一次的结果都充满了随机性,你可能真的非常幸运,跑出一个非常好的数字,研究报告中通常写的就是这个”。个体研究人员的评价标准是发表论文的数量和质量,而这势必导致论文刻意隐藏一些较差的结果;整体科学研究的评价标准是论文的真实水平,而这就要求作者开诚布公,如何破解这一矛盾,让之前的论文配得上现在你的认知呢?
在即将召开的NeurIPS2019上,专门发布了一个叫做ML Retrospectives(机器学习回顾展)的论坛,希望让研究者们在这里。回顾和反思自己过去的研究。
ML Retrospectives是一次尝试,是一个研究者们用来对自己以前的论文进行反思和评论的网站?
链接:
https://ml-retrospectives.github.io
你可以在这里对公开发表一些高质量论文进行回顾,它的目标之一就是鼓励研究者更加开诚布公地探讨他们之前的工作,并且实时分享他们新的见解。
链接:
https://ml-retrospectives.github.io/neurips2019/
ML Retrospectives工作坊源于一个称之为“论文债务”的想法。“论文债务”指的是论文作者和读者之间可用知识的差异:那些论文作者本可以在文章中阐述却并未书写的实验,直觉以及局限性。“论文债务”是“研究债务”的一种具体形式,而“研究债务”这个概念最早由Chris Olah和Shan Carter在Distill杂志发表,指的是一个外行人和一个专家之间的知识差异。
“论文债务”以各种方式不断累积,有时,研究人员为了文章的简洁性而被迫省略了一些直觉或者实验。其他时候会做出微妙的混淆或者误导。Lipton和Steinhardt在Troubling Trends in Machine Learning Scholarship 一文中这样描述该现象:一些论文通常很难区分猜测和解释的部分,刻意隐藏结果的经验来源,以及添加不必要的方程来让方法看起来更复杂。
论文写作中更加明显的遗漏也是很常见的,例如,如果作者在其他的数据集上进行了额外的实验而没有成功,那么作者在论文中通常会省略掉它,尽管这对其他研究人员十分有用。类似地,作者很可能会为他们基线模型选择较差的超参数,这并不容易看出来,如果作者没有完整地描述超参数选择过程的话。
一位研究人员说,“每跑一次的结果都充满了随机性,你可能真的非常幸运,跑出一个非常好的数字,研究报告中通常写的就是这个。”这也是顶会论文中公开源码的比率比较低的原因之一。
在2018年的Science中也有报道,如下所示?
链接:
https://www.sciencemag.org/news/2018/02/missing-data-hinder-replication-artificial-intelligence-studies
由于研究者撰写论文的部分目的是为了取悦未来的审稿人,而这无疑鼓励着“论文债务”的产生。研究人员的评价标准是其在顶级会议和期刊上发表的论文数量。淡化缺陷以及省略负面结果提高了审稿人眼中的论文质量,从而论文也更容易通过同行评审。
“论文债务”的另一大推动因素是时间。由于论文作者进行了额外的实验并与同行进行了交流,他们对自己的工作有了一个更好的理解。有时,如果变化足够的话,作者会在arXiv上更新他们的文章,但是更多时候,这些理解只会停留在作者的脑海里。毕竟,要把这些发现巧妙地融入到之前的论文并不是一件易事,也并不清楚会有多少人注意到你添加的内容,如果他们并没有阅读你之前的论文的话。
“论文债务”是研究人员劳动力的最大浪费。如今,阅读论文时还要试图理解哪些主张在技术上是合理的。在阅读机器学习的论文时这种现象普遍存在:“好吧,他们试图隐藏什么?你需要用什么秘技才能真正让它发挥作用?”对于许多研究人员而言,这种怀疑主义“来之不易”,因为他们需要将工作建立在那些看起来很酷却并不怎么奏效的想法上。如果我们没有三思而后行,这种情况就经常发生。我们已经习惯了如此巨额的“论文债务”,以致于我们所有的怀疑看起来都是正常的。
想象一下,如果对于每篇发表的论文,作者都尽可能地详尽实诚地描述了所有有效和无效之处,那将是多么难以置信?
ML Retrospective的目标希望其朝着这个方向迈出的具体一步,那么,ML Retorspectives这个想法是如何产生的呢?让我们在下文看看其网站创始人之一的心路历程。
想法源于在那么一天,我意识到自己以前的论文已经不知不觉间增加了许多“论文债务”,2017年,我与别人合著了一篇有关训练神经网络的论文(我们称之为“ADEM”),用于自动评估对话响应的质量。论文被一个顶级NLP会议—ACL接收了,并获得了一项杰出论文奖,在很多方面,我为这篇论文感到自豪,我至今仍觉得对话评估是一个研究不足的问题,而这篇论文是解决该问题的一次有趣的尝试。
但是我仍有一丝内疚,在论文发表后的一年里,我和其他尝试用ADEM进行对话评估的研究人员进行过几次交流,发现在他们的数据集上效果并不是很好。之后我收到了一名学生的邮件,他已经对他手工创建的数据进行了几次健全性检查,他发现ADEM并没有通过一些健全性检查,ADEM始终认为较短的回答更好一点,即使这些较短的回答并没有什么意义。
摘录自一名用ADEM进行数据健全性检查的学生的谷歌表格
尽管这些结果对我来说是全新的,但我之前就隐隐觉得ADEM可能无法很好地推广到其他数据集,在首次训练ADEM之后,我注意到它更倾向于较短的回答,我们发现这是由于我们收集的数据集MTurk存在偏差,因此我们尝试通过过采样或者欠采样的方法来改进它,我们在论文中提到了偏差的存在以及尝试的解决方案。我没有提及的是我也在一个不同项目的数据集上尝试了ADEM,发现效果并不是很好,我为论文的披露不足负全责,当时我认为这是由于数据收集程序的差异而导致的,因此并没有重视。毕竟,真正重要的是ADEM在测试集上得以推广,不是吗?
通过这些交流,我发现我对这项研究有了全新的看法,“哦,是的,这个想法很酷,但我实际上不会用它来评估对话系统。”我很乐意私下里讨论ADEM的局限性,但是当更新arXiv上的论文时,我犹豫了,我并不想花时间去进行严格的附加测试,包括那些非正式的谈话或者那名不认识的学生发给我的谷歌表格上看起来毫不合理的临时结果,所以我等待着,试着控制自己的内疚和判断,直到有什么可以改变我想法的东西出现。
最终改变我观点的是这样一种认知:我不必为以前的论文中的这些矛盾感到羞耻。当我写下这些论文时,我当时的水平和现在并不相同。这不会让我成为一个坏蛋,它只是意味着随着时间的推移,我的水平不断提高,就像其他人一样。
如释重负之后,我能够更加容易地反思我之前的论文。我想为这些累积的论文债务做些什么呢?我最早想的是写一篇有关它的个人博客,但在与我的主管Joelle和蒙特利尔学习算法研究所(Montreal Institute of Learning Algorithms,Mila)以及Facebook蒙特利尔AI实验室(Facebook AI Montreal)的其他人讨论后,多亏了一系列机构的研究团队,现在它变成了现实。
我们提出的方案就是ML Retrospectives。
ML Retrospectives是一个举办回顾的平台:研究人员在这里诚实地写下他们对自己以前的论文的看法。因为回顾是有关自己以往论文的真实看法,所以它是一个减少论文债务的简单方法。我们希望回顾能够不像论文那样正式,因此我们让它们的格式看起来更像博客,并且把整个网站托管到了Github上,要提交回顾,你只需要向我们的仓库提交请求即可。
回顾是以Markdown语法书写的,因此它们能够很自然地显示在ML Retrospectives网站上。
为什么写回顾?发布代码意味着你关注结果的可复制性,与之相同,撰写回顾意味着你诚实地展现你的工作。回顾可以很简短,只需花上30分钟写下对你自己的论文的看法即可,但这对读者却有着很大的帮助。回顾并不一定是消极的,你也可以写下自论文发表以来你在这项工作中新的发现,结合这一领域的进展来给你的论文注入新的活力,9月15日之前提交的回顾有机会在NeurIPS 2019 回顾研讨会上公开发表。
我们决定只向论文的原作者开放回顾。虽然一些对其他人的论文的评判也很有价值,但我们目前希望专注于让作者自我评判常规化。对于第一次迭代,提交给ML Retrospectives的回顾不会进行正式的同行评审,但我们目前也在考虑为那些高质量的回顾出一份期刊。
ML Retrospectives这项试验提出了这样一个问题:当我们建立了一个鼓励研究人员直面他们过去工作中的缺陷的平台时会发生什么?虽然我们很期待通过NeurIPS研讨会进行自我反思(一种重要的奖学金形式),但从长远来看,我们更希望建立分享研究的文化规范,这并不是说羞辱那些在过去写的论文中犯错的人,而是歌颂那些能够大胆说出不足并公开分享的研究者。
做科学很重要,通过理解世界的运作方式,我们能够创造那些让生活更美好的事物。但是,研究科学过程本身也是一件重要的事。如果个体研究人员的激励措施与提高整体科学研究水平的激励措施并不一致时,我们就会进入这样一种窘境:即大多数论文的研究结果都无法复制。ML Retrospectives只是对科学过程本身的一次小迭代,我们希望看到更多的研究人员尝试着用他们认为有益的方法来助力科学研究。
ML Retrospectives的最终目的是让研究更加人性化,这意味着让研究人员感到写论文就像和老朋友谈话一样,这意味着让研究公开透明,这意味着建立一个更加开放包容的机器学习社区。
毕竟,在这场科学之旅中,我们一路同行。
相关报道:
https://thegradient.pub/introducing-retrospectives/?nsukey=0SrBDySpLAd%2BLHc123SwkKTAYwatjGl4P7XiCNURhBBguYdS8wyCudnEWYvGym3ZZWBX5vrlWKBcSrZdRmMcuNtH3c%2BJL23fWT5CxGZhor9RmbAjLu1EY7vHIITSKZTbnGFwfMOtJ2LhG7Ld%2FWQdjT4GPRaVnDR%2FyLIz23TrcKpRB1TNFRNrPYeE2GJaHbCvWh0PBiJzpRkD14U0L4GKSQ%3D%3D