张玥 编译
可重复性是科学研究的一大基石。这是由英国科学家罗伯特·波义耳(Robert Boyle)于17世纪60年代普及的概念,该理论提出,一项发现在被接受成为科学知识之前,必须是可重复的。
也就是说,当我在一份学术刊物中发表某项发现时,如果你采用我所描述的方法,就应该能获得同样的结果。比如说,如果科研人员在利用某种新药治疗某项疾病时,如果其效果能够重复,这就意味着它能为这种疾病的所有患者带来福音。如若不然,我们就会开始怀疑此前的成效是否源自于某场意外或错误,也会质疑该药物的有效性。
回顾科学史,科研人员在报告自己的研究方法时,都在努力让其他独立研究人员可以重复他们的结果。但自从引入了个人电脑,再加上便捷的点击式软件程序的使用逐步普及,很多研究工作的可重复性就开始遭遇质疑,甚至被颠覆。如今很多研究过程在计算机的不透明操作中被掩盖,很多科研人员开始依赖于计算机。这让外人基本上无法重现他们的结果。
日前,全球有不少科学家对该问题提出了相似的解决方案。他们共同致力于将科学数据从未被记录的计算机操纵“黑箱子”中解放出来,让独立研究者可以再次严格评估并重复工作结果。华盛顿大学考古学副教授本·马维克(Ben Marwick)日前撰文表示,这种方式会让科研人员、公众和科学界本身都能从中获益。
计算机能驾驭数据,但也能掩藏数据
统计学家维多利亚·施托登(Victoria Stodden)曾公开描述了个人电脑在科学发展史上的独特地位。个人电脑不只是像望远镜或显微镜的一种工具,它还能开拓新的科研工作。她认为计算机的革命性存在于另一个角度,它就像一个小工厂,能够形成各种各样的新视角,发现科学数据中的新模式。
现如今,人们已经很难找到不使用电脑工作的科研人员,甚至在不需要太多定量研究的领域亦是如此。生态学家会用电脑模拟灾害对动物种群的影响;生物学家利用电脑寻找海量DNA数据;天文学家则用电脑控制望远镜的大量阵列,继而处理采集到的数据;海洋学家利用电脑结合来自卫星、船只和浮标上的数据,预测全球气候变化;社会科学家利用电脑发现和预测政策方面的影响,或分析访谈内容。在几乎各个学科领域,计算机都在帮助科学家寻找数据背后有趣的内容。
同时,计算机也是一种个人设备。马维克指出,我们往往都拥有自己的私人电脑,电脑中存有的文件和文件夹也通常被认为是私人领地,隐藏于公众视野之外。对结果的准备、分析和可视化,都是由个人在自己的电脑上私下完成的。只有在流程的最后一步,才会形成一份面向公众的期刊文章,总结此前所有私下完成的所有工作。
他说,现在的问题在于绝大多数现代科学研究都非常复杂,而绝大多数期刊文章又十分简洁,因此,论文中根本不可能体现出科研人员在分析电脑数据时采用的很多重要方法和决策的细节。那么,其他的科研人员将如何判断这项科研结果的可靠性,又将如何重复这项分析呢?
想要重复某项科研工作?祝你好运
科研工作仍需更加透明
斯坦福统计学家乔纳森·巴克海特(Jonathan Buckheit)与大卫·多诺霍(David Donoho)早在1995年就提出过这一问题,当时,个人电脑仍然是相对较新的概念。
他们当时的主张较为激进,他们认为,我们个人电脑上所有的私人文件,以及我们在准备发表时所做的个人分析,都应该在期刊文章发表时对外公开。
这对科研人员来说将是工作方式上的巨大变革。马维克表示,这意味着我们需要在最初使用电脑开始工作时就做好准备,以最终实现信息的公开透明。这让不少科研人员感到难以接受。施托登发现,分享文件时面临的最大障碍是要花时间去写证明文件并进行清理。还有一个最重要的考量在于,其他人可能会将文件占为己用。
提升可重复性的新工具箱
电脑中到底有多少秘密?
最近,几组科学家都在大力推荐几种追踪电脑文件与分析的工具与方法,涉及的科研团队包括了生物学家、生态学家、核工程师、神经科学家、经济学家与政治科学家等多种领域。他们发表了类似宣言的论文,并在其中公开提出了他们的建议。马维克指出,当这么多不同领域的科研人员开始推动同一方法时,这可能意味着科研工作的主要分水岭就在眼前。
他举例介绍道,其中一种主流建议就是在数据分析中,尽量少用甚至不用鼠标轻轻一点就能搞定的程序。该建议指出,科研人员应使用包含电脑执行指令的文字。这样可以解决人们难以记录或追踪鼠标运动的问题,因为鼠标的运动十分短暂,很难将信息追踪并传递给其他人,而且也难以实现自动化。马维克表示,这种方法常见于数据清理和利用微软Excel等表单软件组织任务。
另一方面,采用文字类指令于人于己都十分清晰明确,即便是作者本人也可在数年后回顾细节。同时,这些文本的体量并不大,也可加入到期刊论文中。而且这些文本也可便于应用到自动化的研究任务中,节约时间并减少人为错误的潜在可能。
其实,我们可以在微生物学、生态学、政治学和考古学等中找到类似的应用案例。这些领域在做科研工作时,往往不会在菜单和按钮之间来回点选、手动编辑表格单元、在不同软件间拖拽文件获取结果,他们会自己写指令。这些指令可以实现自动移动文件、清理数据、统计分析、形成图表、数据和表格,大大节约了检查分析的时间,也方便科研人员重新探索不同的选择。而且通过检查指令文本中的代码(作为论文发表的一部分),读者可以清楚地掌握该研究工作形成发表结果的具体步骤。
此外,还有一些建议提到:应该使用常用的非专属文件格式进行存储(如CSV存储数据表格);或是采用简单提示系统性组织文件夹,便于他人理解信息架构。他们建议使用通用的计算机系统(如Windows、Mac、Linux)分析和呈现数据(如R和Python)。如在科研工作中有合作需求,他们也建议采用一款名为Git的免费软件,该软件可同时记录多人编辑同一文件的修改痕迹。
马维克指出,现在市场上已经有不少前卫的工具和方法,处于职业生涯中期或资深科学家往往对其不太了解,但很多本科生已经开始掌握这些工具和方法。这些年轻人意识到有条理、使用开放格式、免费软件、流线型合作的优势,他们已经开始在软件工匠(Software Carpentry)、数据工匠(Data Carpentry)、rOpenSci等志愿组织学习新工具和新方法,以便与学校培养相互补充。
马维克指出,他所在的华盛顿大学日前开设了电子化科学研究所(eScience Institute),帮助科研人员更好地掌握这些工具和方法。他介绍,该研究所是一场大型运动的一部分,此外伯克利、纽约大学等高校内同类研究所也参与其中。
他预测,随着这批掌握技能的学生毕业并逐渐走入重要岗位,我们将会看到这些标准将会成为科研中的新常态。学术期刊将会要求在发表论文的同时提交代码和数据文件。资助机构将会要求在线上公共数据库中提交这些信息。
分析数据的一份脚本
开放格式与免费软件互利共赢
科研人员电脑使用方式的变革有利于推动科学的公众参与。随着科学家更愿意分享他们的文件和方法,公众将可以更好地接触到科学研究。
例如,一名高中老师可以为学生展示一篇新近发表科研进展的原始数据,带他们一同学习论文分析的主要部分,因为期刊论文中都附有这些文件。
同样,随着科研人员更多地使用免费软件,公众也能用相同的软件重新形成并扩展现有的发表成果。目前有很多科研人员使用的都是费用高昂的商业软件程序,这是大型企业外或校外的人所负担不起的。
当然,个人电脑并不是造成科研工作可重复性受阻的单一原因。实验设计不严谨、统计方法选用不当、科研环境竞争激烈、对创新性的高度重视、发表论文过度重视期刊影响力,都是造成这一问题的原因。
马维克也指出,计算机作用的独特性在于,我们拥有解答问题的方法。已有人推荐了计算机科学研究中久经测试的成熟工具和方法,能够帮助任一领域科学家在使用电脑做科研时提升科研的可重复性。他最后指出,只要你投入一小部分时间学习这些工具,我们就能帮助你重新建立科学基础。
领取专属 10元无门槛券
私享最新 技术干货