首先,我认为有必要说明我所说的复制和可复制性的含义:
撇开复制给定的构建,特别是临时构建相比,复制对于我来说是非常容易的,如果它是计划的并且值得做的话。尽管如此,我还不清楚如何执行允许可再现性的数据科学工作流。
我能想到的壁橱比较是生成针对程序员的软件文档的文件生成器 --尽管我看到的主要区别是,理论上,如果两组分析运行的是文档应该匹配的“可再现性文档生成器”。
另一个问题是,虽然我了解可再现性文档的概念,但我很难想象它会以可用的形式出现,而不只是一个复制分析的指南。
最后,这样做的全部目的是了解在构建堆栈时是否有可能“烘焙”可重现性文档,而不是在构建堆栈之后。
那么,是否有可能自动生成可重现性文档,如果是的话,会是什么样的呢?
更新:请注意,这是这个问题的第二稿,克里斯托弗·卢登在我意识到第一个草稿可能不清楚之后,允许我编辑这个问题。谢谢!
发布于 2014-05-14 22:03:50
为了在不只是复制的情况下可以复制,您需要使用新的数据重做实验,并遵循与以前相同的技术。工作流程不像使用的技术那么重要。样本数据以同样的方式,使用相同类型的模型。如果您从一种语言切换到另一种语言并不重要,只要模型和数据操作是相同的。
这种类型的复制将表明,您在第一次实验中获得的结果不太可能成为侥幸的结果。
https://datascience.stackexchange.com/questions/69
复制相似问题